Jeg vil gerne vide, hvordan man fortolker en forskel i f-måleværdier. Jeg ved, at f-måling er et afbalanceret gennemsnit mellem præcision og tilbagekaldelse, men jeg spørger om den praktiske betydning af en forskel i F-mål.

For eksempel, hvis en klassifikator C1 har en nøjagtighed på 0,4 og en anden klassifikator C2 med en nøjagtighed på 0,8, så kan vi sige, at C2 korrekt har klassificeret fordoblingen af testeksempler sammenlignet med C1. Men hvis en klassifikator C1 har et F-mål på 0,4 for en bestemt klasse og en anden klassifikator C2 et F-mål på 0,8, hvad kan vi dog angive om forskellen i ydeevne for de 2 klassifikatorer? Kan vi sige, at C2 har klassificeret X flere forekomster korrekt end C1?

Kommentarer

  • I ‘ Jeg er ikke sikker på at du kan sige meget, da F-målingen er funktion af både præcision og tilbagekaldelse: da.wikipedia.org/wiki/F1_score . Du kan dog gøre matematikken og holde den ene (enten præcision eller tilbagekaldelse) konstant og sige noget om den anden.

Svar

Jeg kan ikke tænke på en intuitiv betydning af F-målingen, fordi det bare er en kombineret metric. Hvad er mere intuitivt end F-mesure, selvfølgelig, er præcision og tilbagekaldelse.

Men ved hjælp af to værdier kan vi ofte ikke afgøre, om en algoritme er bedre end en anden. For eksempel, hvis en algoritme har højere præcision, men lavere tilbagekaldelse end andre, hvordan kan du så se, hvilken algoritme der er bedre?

Hvis du har et specifikt mål i dit sind som “Præcision er kongen. Jeg don ikke t bekymrer dig meget om tilbagekaldelse, så er der ikke noget problem. Højere præcision er bedre. Men hvis du ikke har et så stærkt mål, vil du have en kombineret måling. Det er F-mål. Ved at bruge det sammenligner du noget med præcision og noget med tilbagekaldelse.

ROC-kurven tegnes ofte med F-målingen. Du kan finde denne artikel interessant, da den indeholder forklaring på flere målinger, herunder ROC-kurver: http://binf.gmu.edu/mmasso/ROC101.pdf

Svar

F1-scoreens betydning er forskellig baseret på scenariet. Lad os antage, at målvariablen er en binær etiket.

  • Balanceret klasse: I denne situation kan F1-score effektivt ignoreres, fejlklassificeringshastigheden er nøglen.
  • Ubalanceret klasse, men begge klasser er vigtige: Hvis klassefordelingen er meget skæv (f.eks. 80:20 eller 90:10), kan en klassifikator få en lav mis-klassificeringsrate ved blot at vælge majoritetsklassen. I en sådan situation ville jeg vælge klassifikatoren, der får høje F1-scoringer på begge klasser, samt lav mis-klassificeringsrate. En klassifikator, der får lave F1-scores, bør overses.
  • Ubalanceret klasse, men en klasse, hvis vigtigere end den anden. For f.eks. i afsløring af svig er det vigtigere at mærke en instans korrekt som svigagtig i modsætning til at mærke den ikke-svigagtige. I dette tilfælde vælger jeg klassifikatoren, der har en god F1-score kun på den vigtige klasse . Husk at F1-score er tilgængelig pr. Klasse.

Svar

F-foranstaltning har en intuitiv betydning. Det fortæller dig, hvor præcis din klassifikator er (hvor mange forekomster den klassificerer korrekt) samt hvor robust den er (den går ikke glip af et betydeligt antal forekomster).

Med høj præcision men lav tilbagekaldelse er din klassifikator ekstremt nøjagtig, men den går glip af et betydeligt antal tilfælde, der er vanskelige at klassificere. Dette er ikke særlig nyttigt.

Se på dette histogram. indtast billedbeskrivelse her Ignorer det oprindelige formål.

Mod højre får du høj præcision, men lav tilbagekaldelse. Hvis jeg kun vælger forekomster med en score over 0,9, vil mine klassificerede forekomster være ekstremt præcise, men jeg vil have savnet et betydeligt antal forekomster. Eksperimenter indikerer, at den søde plet her er omkring 0,76, hvor F-målingen er 0,87.

Kommentarer

  • Sidste afsnit er vildledende. Der er ikke begrebet en ” god eller dårlig ” score uden sammenhæng, hvor vi anvender dette. I visse indstillinger er måske 60% den nyeste teknik, i andre indstillinger er 95% muligvis uacceptabelt lave.

Svar

F-målingen er det harmoniske gennemsnit af din præcision og tilbagekaldelse. I de fleste situationer har du en afvejning mellem præcision og tilbagekaldelse. Hvis du optimerer din klassifikator til at øge den ene og forkaste den anden, falder det harmoniske gennemsnit hurtigt. Det er dog størst, når både præcision og tilbagekaldelse er ens.

Givet F-mål på 0,4 og 0,8 for dine klassifikatorer, kan du forvente, at disse er de maksimale værdier, der opnås, når du vejer præcision mod tilbagekaldelse.

For visuel reference kan du se på dette tal fra Wikipedia :

indtast billedebeskrivelse her

F-målingen er H , A og B er tilbagekaldelse og præcision. Du kan øge en, men så falder den anden.

Kommentarer

  • Jeg fandt ” Krydsede Stiger ” visualisering for at være lidt mere ligetil – for mig gør det ligestillingen mellem A = B og resulterer i den største H mere intuitiv

Svar

Med præcision på y-aksen og tilbagekaldelse på x-aksen, hældningen af niveaukurven $ F _ {\ beta} $ ved ( 1, 1) er $ -1 / \ beta ^ 2 $.

Givet $$ P = \ frac {TP} {TP + FP} $$ og $$ R = \ frac {TP} { TP + FN} $$, lad $ \ alpha $ være forholdet mellem prisen på falske negativer og falske positive. Derefter er de samlede fejlomkostninger proportionale med $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Så hældningen af niveaukurven ved (1, 1) er $ – \ alpha $. Derfor betyder det for gode modeller, der bruger $ F _ {\ beta} $, at du betragter falske negativer $ \ beta ^ 2 $ gange dyrere end falske positive.

Svar

Formlen for F-måling (F1, med beta = 1) er den samme som formlen, der giver den ækvivalente modstand sammensat af to modstande placeret parallelt i fysik (glemmer faktor 2).

Dette kan give dig en mulig fortolkning, og du kan tænke på både elektroniske eller termiske modstande. Denne analogi vil definere F-måling som den ækvivalente modstand dannet af følsomhed og præcision placeret parallelt.

For F-måling er den maksimale mulige 1, og du mister modstand, så snart en blandt de to også mister modstand (det vil sige, få en værdi under 1). Hvis du ønsker bedre at forstå denne mængde og dens dynamik, så tænk på det fysiske fænomen. For eksempel ser det ud til, at F-målingen < = max (følsomhed, præcision).

Svar

Den nærmeste intuitive betydning af f1-score opfattes som gennemsnittet af tilbagekaldelsen og præcisionen. Lad os rydde det for dig:

I en klassifikationsopgave planlægger du muligvis at opbygge en klassifikator med høj præcision AND husker. For eksempel en klassifikator, der fortæller, om en person er ærlig eller ej.

For præcision er du i stand til normalt at fortælle nøjagtigt, hvor mange ærlige folk derude i en given gruppe. I dette tilfælde, når du holder af høj præcision, antager du at du kan forklassificere en løgner som ærlig, men ikke ofte. Med andre ord, her prøver du at identificere løgnere fra ærlige som en hel gruppe .

Til tilbagekaldelse vil du dog være virkelig bekymret, hvis du tror, at en løgner er ærlig. For dig vil dette være et stort tab og en stor fejltagelse, og du vil ikke gøre det igen. Det er også okay, hvis du klassificerer en ærlig som en løgner, men din model bør aldrig (eller for det meste ikke) hævde en løgner som ærlig. Med andre ord, her fokuserer du på en bestemt klasse, og du prøver ikke at lav en fejl ved det.

Lad os nu tage den sag, hvor du vil have din model til (1) at identificere ærlig fra en løgner (præcision) (2) identificere hver person fra begge klasser (tilbagekaldelse). Hvilket betyder, at du vælger den model, der fungerer godt på begge målinger.

Din beslutning om modelvalg vil derefter forsøge at evaluere hver model baseret på gennemsnittet af de to målinger. F-Score er den bedste der kan beskrive dette. Lad os se på formlen:

$$ Recall: \ text {r} = \ frac {tp} {tp + fn} $$

$$ Præcision: \ text {p} = \ frac {tp} {tp + fp} $$

$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$

Som du ser, er den højere tilbagekaldelse AND præcision, jo højere F-score.

Svar

du kan skrive F-måleligningen http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg på en anden måde, som $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$ så når $ β ^ 2 < 1 $, bør $ p $ være vigtigere (eller større for at få en højere $ F_ \ beta $).

Svar

At vide, at F1-score er harmonisk gennemsnit af præcision og tilbagekaldelse, nedenfor er en lidt kort om dem.

Jeg vil sige tilbagekaldelse handler mere om falske negativer. dvs. at have en højere tilbagekaldelse betyder, at der er mindre FALSE NEGATIVER .

$$ \ text {Recall} = \ frac {tp} {tp + fn} $$

Så meget som mindre FN eller Zero FN betyder, er din forudsigelse af model virkelig god.

Mens der er højere præcision betyder, er der mindre FALSE POSITIVER $$ \ text {Precision} = \ frac {tp} {tp + fp} $$

Samme her , Mindre eller nul falske positiver betyder, at modelforudsigelse er rigtig god.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *