Jag skulle vilja veta hur man tolkar en skillnad i f-måttvärden. Jag vet att f-mått är ett balanserat medelvärde mellan precision och återkallande, men jag frågar om den praktiska betydelsen av en skillnad i F-mått.
Till exempel om en klassificerare C1 har en noggrannhet på 0,4 och en annan klassificering C2 med en noggrannhet på 0,8, då kan vi säga att C2 korrekt har klassificerat det dubbla av testexemplen jämfört med C1. Men om en klassificerare C1 har ett F-mått på 0,4 för en viss klass och en annan klassificerare C2 ett F-mått på 0,8, vad kan vi då säga om skillnaden i prestanda för de två klassificerarna? Kan vi säga att C2 har klassificerat X fler fall korrekt än C1?
Kommentarer
- Jag ’ jag är inte säker på att du kan säga mycket eftersom F-måttet är funktion av både precision och återkallelse: sv.wikipedia.org/wiki/F1_score . Du kan dock göra matematiken och hålla en (antingen precision eller återkallelse) konstant och säga något om den andra.
Svar
Jag kan inte tänka mig en intuitiv betydelse av F-måttet, för det är bara ett kombinerat mått. Vad är mer intuitivt än F-mesure, naturligtvis, är precision och återkallelse.
Men med två värden kan vi ofta inte avgöra om en algoritm är överlägsen en annan. Till exempel, om en algoritm har högre precision men lägre återkallande än andra, hur kan du se vilken algoritm som är bättre?
Om du har ett specifikt mål i ditt sinne som ”Precision är kungen. Jag gör inte” bryr dig inte så mycket om återkallelse ”, då är det inget problem. Högre precision är bättre. Men om du inte har ett så starkt mål, vill du ha ett kombinerat mått. Det är F-måttet. Genom att använda den jämför du en del av precision och en del av återkallande.
ROC-kurvan ritas ofta med F-måttet. Du kanske tycker att den här artikeln är intressant eftersom den innehåller förklaringar om flera mått, inklusive ROC-kurvor: http://binf.gmu.edu/mmasso/ROC101.pdf
Svar
Betydelsen av F1-poängen är olika beroende på scenariot. Låt oss anta att målvariabeln är en binär etikett.
- Balanserad klass: I denna situation kan F1-poängen effektivt ignoreras, felklassificeringsgraden är nyckeln.
- Obalanserad klass, men båda klasserna är viktiga: Om klassfördelningen är mycket sned (t.ex. 80:20 eller 90:10), kan en klassificerare få en låg felklassificeringsgrad genom att välja majoritetsklassen. I en sådan situation skulle jag välja klassificeraren som får höga F1-poäng på båda klasserna, liksom låg felklassificeringsgrad. En klassificering som får låga F1-poäng bör förbises.
- Obalanserad klass, men en klass om viktigare än den andra. För t.ex. vid upptäckt av bedrägerier är det viktigare att korrekt märka en instans som bedräglig, i motsats till att märka den icke-bedrägliga. I det här fallet skulle jag välja klassificeraren som har en bra F1-poäng endast på den viktiga klassen . Kom ihåg att F1-poängen är tillgänglig per klass.
Svar
F-mått har en intuitiv betydelse. Den berättar hur exakt din klassificerare är (hur många instanser den klassificerar korrekt), samt hur robust den är (den missar inte ett betydande antal instanser).
Med hög precision men låg återkallelse är din klassificering extremt exakt, men den saknar ett betydande antal fall som är svåra att klassificera. Det här är inte särskilt användbart.
Ta en titt på detta histogram. Ignorera dess ursprungliga syfte.
Mot höger får du hög precision, men låg återkallelse. Om jag bara väljer instanser med en poäng över 0,9 kommer mina klassificerade instanser att vara extremt exakta, men jag kommer att ha missat ett betydande antal instanser. Experiment indikerar att den söta fläcken här är runt 0,76, där F-måttet är 0,87.
Kommentarer
- Det sista stycket är vilseledande. Det finns inte begreppet en ” bra eller dålig ” poäng utan sammanhang för var vi använder detta. I vissa inställningar är kanske 60% den senaste tekniken, i andra inställningar kan 95% vara oacceptabelt låg.
Svar
F-måttet är det harmoniska medelvärdet för din precision och återkallelse. I de flesta situationer har du en avvägning mellan precision och återkallelse. Om du optimerar din klassificering så att den ökar och missgynnar den andra minskar det harmoniska medelvärdet snabbt. Det är dock bäst när både precision och återkallning är lika.
Med tanke på F-mått på 0,4 och 0,8 för dina klassificerare, kan du förvänta dig att dessa är de maximala värden som uppnås när du väger ut precision mot återkallning.
För visuell referens, ta en titt på denna siffra från Wikipedia :
F-måttet är H , A och B är återkallande och precision. Du kan öka en, men sedan minskar den andra.
Kommentarer
- Jag hittade ” Korsad Stegar ” visualisering för att vara lite enklare – för mig gör det lika A = B vilket resulterar i den största H mer intuitiv
Svar
Med precision på y-axeln och återkallande på x-axeln, lutningen på nivåkurvan $ F _ {\ beta} $ vid ( 1, 1) är $ -1 / \ beta ^ 2 $.
Med tanke på $$ P = \ frac {TP} {TP + FP} $$ och $$ R = \ frac {TP} { TP + FN} $$, låt $ \ alpha $ vara förhållandet mellan kostnaden för falska negativ och falska positiva. Då är den totala felkostnaden proportionell mot $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Så lutningen på nivåkurvan vid (1, 1) är $ – \ alpha $. För goda modeller som använder $ F _ {\ beta} $ innebär det att du anser att falska negativa $ \ beta ^ 2 $ är dyrare än falska positiva.
Svar
Formeln för F-mått (F1, med beta = 1) är densamma som formeln som ger motsvarande motstånd sammansatt av två motstånd placerade parallellt i fysik (glömmer bort faktor 2).
Detta kan ge dig en möjlig tolkning, och du kan tänka på både elektroniska eller termiska motstånd. Denna analogi skulle definiera F-mått som motsvarande motstånd som bildas av känslighet och precision placerade parallellt.
För F-mått är det maximala möjliga 1, och du tappar motstånd så snart en bland de två förlorar motstånd också (det vill säga, få ett värde under 1). Om du vill förstå denna kvantitet och dess dynamik bättre, tänk på det fysiska fenomenet. Det verkar till exempel att F-måttet < = max (känslighet, precision).
Svar
Den närmaste intuitiva innebörden av f1-poäng uppfattas som medelvärdet av återkallelsen och precisionen. Låt oss rensa det åt dig:
I en klassificeringsuppgift planerar du att bygga en klassificerare med hög precision OCH minns. Till exempel en klassificering som berättar om en person är ärlig eller inte.
För precision kan du vanligtvis berätta exakt hur många ärliga människor där ute i en viss grupp. I det här fallet, när du bryr dig om hög precision, antar du att du kan felklassificera en lögnare som ärlig men inte ofta. Med andra ord, här försöker du identifiera lögnare från ärlig som en hel grupp .
Men för att komma ihåg kommer du att vara väldigt orolig om du tror att en lögnare är ärlig. För dig kommer detta att vara en stor förlust och ett stort misstag och du vill inte göra det igen. Det är också okej om du klassificerar någon ärlig som en lögnare men din modell borde aldrig (eller oftast inte) göra anspråk på en lögnare som ärlig. Med andra ord, här fokuserar du på en specifik klass och du försöker att inte gör ett misstag om det.
Låt oss nu ta fallet där du vill att din modell ska (1) exakt identifiera ärlig från en lögnare (precision) (2) identifiera varje person från båda klasserna (minns). Vilket innebär att du väljer den modell som kommer att fungera bra för båda mätvärdena.
Ditt beslut om modellval försöker sedan utvärdera varje modell baserat på medelvärdet av de två mätvärdena. F-Score är den bästa som kan beskriva detta. Låt oss ta en titt på formeln:
$$ Recall: \ text {r} = \ frac {tp} {tp + fn} $$
$$ Precision: \ text {p} = \ frac {tp} {tp + fp} $$
$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$
Som du ser, den högre återkallelsen OCH precision, desto högre F-poäng.
Svar
du kan skriva F-måttsekvationen http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg på ett annat sätt, som $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$ så, när $ β ^ 2 < 1 $, $ p $ borde vara viktigare (eller, större, för att få en högre $ F_ \ beta $).
Svar
Att veta att F1-poäng är ett harmoniskt medelvärde av precision och återkallande, nedan är en lite kortfattat om dem.
Jag skulle vilja säga att återkallelse handlar mer om falska negativa. dvs, att ha en högre återkallning betyder att det finns mindre FALSKA NEGATIV .
$$ \ text {Recall} = \ frac {tp} {tp + fn} $$
Så mycket som mindre FN eller Zero FN betyder, är din modellförutsägelse riktigt bra.
Med högre precisionsmedel finns det FALSKA POSITIVER $$ \ text {Precision} = \ frac {tp} {tp + fp} $$
Samma här , Less or Zero False Positives betyder att modellförutsägelse är riktigt bra.