Ik zou graag willen weten hoe ik een verschil in f-maatwaarden moet interpreteren. Ik weet dat f-maat een uitgebalanceerd gemiddelde is tussen precisie en herinnering, maar ik vraag naar de praktische betekenis van een verschil in F-maten.

Bijvoorbeeld, als een classificator C1 een nauwkeurigheid heeft van 0,4 en een andere classificator C2 een nauwkeurigheid van 0,8, dan kunnen we zeggen dat C2 het dubbele van testvoorbeelden correct heeft geclassificeerd in vergelijking met C1. Als een classificator C1 echter een F-maat van 0,4 heeft voor een bepaalde klasse en een andere classificator C2 een F-maat van 0,8, wat kunnen we dan zeggen over het verschil in prestatie van de 2 classificaties? Kunnen we zeggen dat C2 X meer instanties correct heeft geclassificeerd dan C1?

Opmerkingen

  • Ik ‘ ben niet zeker of je veel kunt zeggen, aangezien de F-maat een functie is van zowel precisie als herinnering: en.wikipedia.org/wiki/F1_score . Je kunt de wiskunde echter uitvoeren en de ene (precisie of herinnering) constant houden en iets over de andere zeggen.

Antwoord

Ik kan geen intuïtieve betekenis van de F-maat bedenken, omdat het “slechts een gecombineerde metriek is. Wat natuurlijk intuïtiever is dan de F-maat, is precisie en herinnering.

Maar als we twee waarden gebruiken, kunnen we vaak niet bepalen of het ene algoritme superieur is aan het andere. Als het ene algoritme bijvoorbeeld een hogere precisie heeft maar een lagere herinnering dan het andere, hoe weet je dan welk algoritme beter is?

Als je een specifiek doel in gedachten hebt, zoals “Precisie is de koning. Ik don” t geeft veel om terugroepen “, dan is er geen probleem. Hogere precisie is beter. Maar als je niet zon sterk doel hebt, wil je een gecombineerde metriek. Dat is de F-maat. Door het te gebruiken, vergelijk je een deel van de precisie en een deel van het geheugen.

De ROC-curve wordt vaak getekend met vermelding van de F-maat. U vindt dit artikel wellicht interessant omdat het uitleg bevat over verschillende metingen, waaronder ROC-curven: http://binf.gmu.edu/mmasso/ROC101.pdf

Answer

Het belang van de F1-score is afhankelijk van het scenario. Laten we aannemen dat de doelvariabele een binair label is.

  • Gebalanceerde klasse: in deze situatie kan de F1-score effectief worden genegeerd, de mate van verkeerde classificatie is de sleutel.
  • Ongebalanceerde klasse, maar beide klassen zijn belangrijk: als de klasseverdeling zeer scheef is (zoals 80:20 of 90:10), kan een classificator een laag percentage misclassificaties krijgen door simpelweg de meerderheidsklasse te kiezen. In een dergelijke situatie zou ik de classifier kiezen die hoge F1-scores krijgt in beide klassen, evenals een lage foutclassificatie. Een classifier die lage F1-scores krijgt, moet over het hoofd worden gezien.
  • Onevenwichtige klasse, maar de ene klasse is belangrijker dan de andere. Voor b.v. bij fraudedetectie is het belangrijker om een instantie correct als frauduleus te bestempelen, in tegenstelling tot de niet-frauduleuze. In dit geval zou ik de classificatie kiezen die een goede F1-score heeft alleen voor de belangrijke klasse . Bedenk dat de F1-score per klas beschikbaar is.

Antwoord

F-maat heeft een intuïtieve betekenis. Het vertelt u hoe nauwkeurig uw classificator is (hoeveel instanties hij correct classificeert), en ook hoe robuust hij is (hij mist geen significant aantal instanties).

Met een hoge precisie maar een lage terugroepactie is uw classificator buitengewoon nauwkeurig, maar mist een aanzienlijk aantal gevallen die moeilijk te classificeren zijn. Dit is niet erg handig.

Bekijk dit histogram eens. voer de beschrijving van de afbeelding hier in Negeer het oorspronkelijke doel.

Naar rechts krijg je hoge precisie, maar weinig terugroepactie. Als ik alleen instanties met een score hoger dan 0,9 selecteer, zullen mijn geclassificeerde instanties uiterst nauwkeurig zijn, maar ik zal een aanzienlijk aantal instanties hebben gemist. Experimenten geven aan dat de sweet spot hier ongeveer 0,76 is, waar de F-maat 0,87 is.

Opmerkingen

  • De laatste alinea is misleidend. Er is geen concept van een ” goede of slechte ” score zonder context van waar we dit toepassen. In bepaalde situaties is misschien 60% de stand van de techniek, in andere gevallen is 95% onaanvaardbaar laag.

Antwoord

De F-maat is het harmonische gemiddelde van uw precisie en herinnering. In de meeste situaties moet u een afweging maken tussen precisie en terugroepen. Als u uw classificatie optimaliseert om de ene te verhogen en de andere ongunstig te beïnvloeden, neemt het harmonische gemiddelde snel af. Het is echter het grootst wanneer zowel precisie als terugroepen gelijk zijn.

Gegeven F-maten van 0,4 en 0,8 voor uw classificaties, kunt u verwachten dat dit de maximale waarden zijn die worden bereikt wanneer precisie wordt afgewogen tegen terugroepen.

Bekijk voor visuele referentie deze figuur van Wikipedia :

voer de beschrijving van de afbeelding hier in

De F-maat is H , A en B zijn terugroepen en precisie. Je kunt de ene verhogen, maar dan de andere afnemen.

Reacties

  • Ik vond de ” Gekruist Ladders ” visualisatie om een beetje eenvoudiger te zijn – voor mij maakt het de gelijkheid van A = B wat resulteert in de grootste H intuïtiever

Antwoord

Met precisie op de y-as en terugroepen op de x-as, de helling van de niveaucurve $ F _ {\ beta} $ op ( 1, 1) is $ -1 / \ beta ^ 2 $.

Gegeven $$ P = \ frac {TP} {TP + FP} $$ en $$ R = \ frac {TP} { TP + FN} $$, laat $ \ alpha $ de verhouding zijn tussen de kosten van valse negatieven en valse positieven. De totale foutkosten zijn dan evenredig met $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Dus de helling van de niveaucurve bij (1, 1) is $ – \ alpha $. Daarom houdt het gebruik van $ F _ {\ beta} $ voor goede modellen in dat u valse negatieven $ \ beta ^ 2 $ keer duurder beschouwt dan valse positieven.

Antwoord

De formule voor F-maat (F1, met beta = 1) is dezelfde als de formule die de equivalente weerstand geeft die bestaat uit twee parallel geplaatste weerstanden in de natuurkunde (waarbij we de factor 2 vergeten).

Dit zou u een mogelijke interpretatie kunnen geven, en u kunt nadenken over zowel elektronische als thermische weerstanden. Deze analogie zou de F-maat definiëren als de equivalente weerstand die wordt gevormd door gevoeligheid en precisie die parallel zijn geplaatst.

Voor F-maat is het maximaal mogelijke 1, en je verliest weerstand zodra een van de twee ook weerstand verliest (dat wil zeggen, een waarde onder de 1 krijgen). Als je deze hoeveelheid en zijn dynamiek beter wilt begrijpen, denk dan eens aan het fysische fenomeen. Het lijkt er bijvoorbeeld op dat de F-maat < = max (gevoeligheid, precisie).

Antwoord

De meest intuïtieve betekenis van de f1-score wordt gezien als het gemiddelde van de terugroepactie en de precisie. Laten we het voor u duidelijk maken:

In een classificatietaak bent u misschien van plan om een classificator met hoge precisie te bouwen EN herinneren. Bijvoorbeeld een classificator die aangeeft of een persoon eerlijk is of niet.

Voor de precisie kunt u gewoonlijk nauwkeurig aangeven hoeveel eerlijke mensen daarbuiten in een bepaalde groep. In dit geval, wanneer u om hoge precisie geeft, gaat u ervan uit dat u een leugenaar verkeerd kunt classificeren als eerlijk, maar niet vaak. Met andere woorden, hier probeert u leugenaar te identificeren van eerlijk als een hele groep .

Ter herinnering: u zult zich echt zorgen maken als u denkt dat een leugenaar eerlijk is. Voor u zal dit een groot verlies en een grote fout zijn en u wilt het niet doen nog een keer. Het is ook oké als je iemand die eerlijk is geclassificeerd als een leugenaar hebt geclassificeerd, maar je model mag nooit (of meestal niet) beweren dat een leugenaar eerlijk is. Met andere woorden, hier concentreer je je op een specifieke klas en probeer je dat niet maak er een fout in.

Laten we nu eens kijken naar het geval waarin u wilt dat uw model (1) precies eerlijk identificeert vanuit een leugenaar (precisie) (2) elke persoon identificeert uit beide klassen (terugroepen). Dit betekent dat u het model selecteert dat goed presteert op beide statistieken.

Uw modelselectiebeslissing zal vervolgens proberen elk model te evalueren op basis van het gemiddelde van de twee statistieken. De F-score is de beste dat dit kan beschrijven. Laten we eens kijken naar de formule:

$$ Recall: \ text {r} = \ frac {tp} {tp + fn} $$

$$ Precision: \ text {p} = \ frac {tp} {tp + fp} $$

$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$

Zoals je ziet, hoe hoger de recall EN precisie, hoe hoger de F-score.

Antwoord

je kunt de vergelijking voor de F-maat schrijven http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg op een andere manier, zoals $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$ dus, wanneer $ β ^ 2 < 1 $, zou $ p $ belangrijker moeten zijn (of, groter, om een hogere $ F_ \ beta $).

Antwoord

Wetende dat F1-score een harmonisch gemiddelde is van precisie en herinnering, hieronder is een kort over hen.

Ik zou zeggen dat Recall meer over vals-negatieven gaat. dat wil zeggen, een hogere Recall betekent dat er minder FALSE NEGATIVES .

$$ \ text {Recall} = \ frac {tp} {tp + fn} $$

Evenveel aangezien minder FN of nul FN betekent, is uw modelvoorspelling echt goed.

Terwijl een hogere precisie betekent, zijn er minder FALSE POSITIVES $$ \ text {Precision} = \ frac {tp} {tp + fp} $$

Hier hetzelfde , Minder of nul fout-positieven betekent dat modelvoorspelling echt goed is.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *