Jeg vil gjerne vite hvordan jeg skal tolke en forskjell i f-måleverdier. Jeg vet at f-mål er et balansert middel mellom presisjon og tilbakekalling, men jeg spør om den praktiske betydningen av en forskjell i F-mål.
For eksempel hvis en klassifiseringsanordning C1 har en nøyaktighet på 0,4 og en annen klassifikator C2 med en nøyaktighet på 0,8, så kan vi si at C2 korrekt har klassifisert det dobbelte av testeksemplene sammenlignet med C1. Imidlertid, hvis en klassifikator C1 har et F-mål på 0,4 for en bestemt klasse og et annet klassifiseringsprogram C2 et F-mål på 0,8, hva kan vi da si om forskjellen i ytelse til de to klassifiseringsapparatene? Kan vi si at C2 har klassifisert X flere tilfeller riktig enn C1?
Kommentarer
- Jeg ‘ Jeg er ikke sikker på at du kan si mye siden F-mål er funksjon av både presisjon og tilbakekalling: en.wikipedia.org/wiki/F1_score . Du kan gjøre matte skjønt og holde den ene (enten presisjon eller tilbakekalling) konstant og si noe om den andre.
Svar
Jeg kan ikke tenke meg en intuitiv betydning av F-målet, fordi det bare er en kombinert beregning. Det som er mer intuitivt enn F-mesure, er selvfølgelig presisjon og tilbakekalling.
Men ved å bruke to verdier kan vi ofte ikke avgjøre om en algoritme er bedre enn en annen. For eksempel, hvis en algoritme har høyere presisjon, men lavere tilbakekalling enn andre, hvordan kan du fortelle hvilken algoritme som er bedre?
Hvis du har et bestemt mål i tankene dine som «Presisjon er kongen. Jeg don» bryr deg ikke mye om tilbakekalling, så er det ikke noe problem. Høyere presisjon er bedre. Men hvis du ikke har et så sterkt mål, vil du ha en kombinert beregning. Det er F-mål. Ved å bruke den, vil du sammenligne noe av presisjon og noe med tilbakekalling.
ROC-kurven tegnes ofte med F-mål. Du kan finne denne artikkelen interessant da den inneholder forklaring på flere tiltak inkludert ROC-kurver: http://binf.gmu.edu/mmasso/ROC101.pdf
Svar
Betydningen av F1-poengsummen er forskjellig basert på scenariet. La oss anta at målvariabelen er en binær etikett.
- Balansert klasse: I denne situasjonen kan F1-poengsummen effektivt ignoreres, feilklassifiseringsfrekvensen er nøkkelen.
- Ubalansert klasse, men begge klassene er viktige: Hvis klassedistribusjonen er veldig skjev (for eksempel 80:20 eller 90:10), kan en klassifikator få en lav feilklassifiseringsrate bare ved å velge majoritetsklassen. I en slik situasjon vil jeg velge klassifisereren som får høye F1-poeng på begge klassene, samt lav feilklassifiseringsrate. En klassifikator som får lave F1-poeng bør overses.
- Ubalansert klasse, men en klasse hvis viktigere enn den andre. For f.eks. i svindeloppdagelse er det viktigere å merke en forekomst riktig som falske, i motsetning til å merke den ikke-falske. I dette tilfellet vil jeg velge klassifisereren som har en god F1-score bare på den viktige klassen . Husk at F1-poengsummen er tilgjengelig per klasse.
Svar
F-mål har en intuitiv betydning. Den forteller deg hvor presis klassifisereren din er (hvor mange forekomster den klassifiserer riktig), samt hvor robust den er (den savner ikke et betydelig antall forekomster).
Med høy presisjon, men lav tilbakekalling, er klassifisereren din ekstremt nøyaktig, men den savner et betydelig antall tilfeller som er vanskelige å klassifisere. Dette er ikke veldig nyttig.
Ta en titt på dette histogrammet. Ignorer det opprinnelige formålet.
Mot høyre får du høy presisjon, men lav tilbakekalling. Hvis jeg bare velger forekomster med en poengsum over 0,9, vil mine klassifiserte forekomster være ekstremt presise, men jeg vil ha savnet et betydelig antall forekomster. Eksperimenter indikerer at søtpunktet her er rundt 0,76, hvor F-målet er 0,87.
Kommentarer
- Siste avsnitt er misvisende. Det er ikke begrepet en » god eller dårlig » score uten kontekst av hvor vi bruker dette. I visse innstillinger er kanskje 60% toppmoderne, i andre omgivelser kan 95% være uakseptabelt lave.
Svar
F-tiltaket er det harmoniske gjennomsnittet av presisjon og tilbakekalling. I de fleste situasjoner har du en avveining mellom presisjon og tilbakekalling. Hvis du optimaliserer klassifisereren for å øke den ene og ugunstige den andre, avtar det harmoniske gjennomsnittet raskt. Det er imidlertid størst når både presisjon og tilbakekalling er like.
Gitt F-mål på 0,4 og 0,8 for klassifikatorene dine, kan du forvente at disse er de maksimale verdiene som oppnås når du veier ut presisjon mot tilbakekalling.
For visuell referanse, se på denne figuren fra Wikipedia :
F-mål er H , A og B er tilbakekalling og presisjon. Du kan øke en, men så avtar den andre.
Kommentarer
- Jeg fant » Krysset Stiger » visualisering for å være litt mer grei – for meg gjør det likheten mellom A = B og resulterer i den største H mer intuitiv
Svar
Med presisjon på y-aksen og tilbakekalling på x-aksen, skråningen av nivåkurven $ F _ {\ beta} $ ved ( 1, 1) er $ -1 / \ beta ^ 2 $.
Gitt $$ P = \ frac {TP} {TP + FP} $$ og $$ R = \ frac {TP} { TP + FN} $$, la $ \ alpha $ være forholdet mellom kostnaden for falske negativer og falske positive. Da er den totale feilkostnaden proporsjonal med $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Så stigningen til nivåkurven ved (1, 1) er $ – \ alpha $. Derfor, for gode modeller som bruker $ F _ {\ beta} $, antar du at du anser falske negativer $ \ beta ^ 2 $ ganger mer kostbare enn falske positive.
Svar
Formelen for F-mål (F1, med beta = 1) er den samme som formelen som gir ekvivalent motstand sammensatt av to motstander plassert parallelt i fysikk (glemmer faktoren 2).
Dette kan gi deg en mulig tolkning, og du kan tenke på både elektroniske eller termiske motstander. Denne analogien vil definere F-mål som ekvivalent motstand dannet av følsomhet og presisjon plassert parallelt.
For F-mål er det maksimale mulig 1, og du mister motstand så snart en av de to mister også motstand (det vil si, få en verdi under 1). Hvis du vil forstå bedre denne mengden og dens dynamikk, kan du tenke på det fysiske fenomenet. For eksempel ser det ut til at F-målet < = max (følsomhet, presisjon).
Svar
Den nærmeste intuitive betydningen av f1-poengsummen oppfattes som gjennomsnittet av tilbakekallingen og presisjonen. La oss rydde det for deg:
I en klassifiseringsoppgave planlegger du kanskje å bygge en klassifikator med høy presisjon AND husker. For eksempel en klassifikator som forteller om en person er ærlig eller ikke.
For presisjon, er du i stand til å fortelle nøyaktig hvor mange ærlige mennesker der ute i en gitt gruppe. I dette tilfellet, når du bryr deg om høy presisjon, antar du at du kan feilklassifisere en løgner som ærlig, men ikke ofte. Med andre ord, her prøver du å identifisere løgner fra ærlig som en hel gruppe .
For å huske at du vil være veldig bekymret hvis du tror at en løgner er ærlig. For deg vil dette være et stort tap og en stor feil, og du vil ikke gjøre det en gang til. Det er også greit hvis du klassifiserer noen ærlige som en løgner, men modellen din skal aldri (eller for det meste ikke) gjøre krav på en løgner som ærlig. Med andre ord, her fokuserer du på en bestemt klasse, og du prøver å ikke gjør en feil med det.
La oss ta saken der du vil at modellen din (1) skal identifisere ærlig fra en løgner (presisjon) (2) identifisere hver person fra begge klasser (tilbakekalling). Hvilket betyr at du vil velge modellen som vil fungere bra for begge beregningene.
Du velger valg av modell for å evaluere hver modell basert på gjennomsnittet av de to beregningene. F-Score er den beste som kan beskrive dette. La oss ta en titt på formelen:
$$ Recall: \ text {r} = \ frac {tp} {tp + fn} $$
$$ Presisjon: \ text {p} = \ frac {tp} {tp + fp} $$
$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$
Som du ser, den høyere tilbakekallingen AND presisjon, jo høyere F-poengsum.
Svar
du kan skrive F-måleligningen http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg på en annen måte, som $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$ så når $ β ^ 2 < 1 $, $ p $ bør være viktigere (eller større for å få en høyere $ F_ \ beta $).
Svar
Å vite at F1-poengsum er harmonisk gjennomsnitt av presisjon og tilbakekalling, nedenfor er en lite kort om dem.
Jeg vil si Recall handler mer om falske negativer. dvs. å ha en høyere Recall betyr at det er mindre FALSE NEGATIVER .
$$ \ text {Recall} = \ frac {tp} {tp + fn} $$
Så mye som mindre FN eller null FN betyr, er modellforutsigelsen din veldig bra.
Mens det betyr høyere presisjon, er det mindre FALSE POSITIVER $$ \ text {Precision} = \ frac {tp} {tp + fp} $$
Samme her , Less or Zero False Positives betyr at modellforutsigelse er veldig bra.