Ich möchte wissen, wie ein Unterschied von f-Messwerten zu interpretieren ist. Ich weiß, dass das f-Maß ein ausgewogenes Mittel zwischen Präzision und Rückruf ist, aber ich frage nach der praktischen Bedeutung eines Unterschieds bei den F-Maßen.

Zum Beispiel, wenn ein Klassifikator C1 eine Genauigkeit von 0,4 hat und ein anderer Klassifikator C2 mit einer Genauigkeit von 0,8, dann können wir sagen, dass C2 das Doppel der Testbeispiele im Vergleich zu C1 korrekt klassifiziert hat. Wenn jedoch ein Klassifikator C1 für eine bestimmte Klasse ein F-Maß von 0,4 und ein anderer Klassifikator C2 ein F-Maß von 0,8 hat, was können wir über den Leistungsunterschied der beiden Klassifikatoren sagen? Können wir sagen, dass C2 X mehr Instanzen korrekt klassifiziert hat als C1?

Kommentare

  • Ich ‚ bin mir nicht sicher, ob Sie viel sagen können, da das F-Maß eine Funktion ist von Präzision und Rückruf: en.wikipedia.org/wiki/F1_score . Sie können jedoch rechnen und eine (entweder Präzision oder Rückruf) konstant halten und etwas über die andere sagen.

Antwort

Ich kann mir keine intuitive Bedeutung des F-Maßes vorstellen, da es sich nur um eine kombinierte Metrik handelt. Was intuitiver als F-Mesure ist, ist natürlich Präzision und Erinnerung.

Mit zwei Werten können wir jedoch oft nicht feststellen, ob ein Algorithmus einem anderen überlegen ist. Wenn zum Beispiel ein Algorithmus eine höhere Präzision, aber einen geringeren Rückruf als der andere hat, wie können Sie dann feststellen, welcher Algorithmus besser ist?

Wenn Sie ein bestimmtes Ziel im Kopf haben, wie „Präzision ist der König. Ich ziehe nicht an“. Rückruf ist mir egal „, dann gibt es kein Problem. Höhere Präzision ist besser. Aber wenn Sie kein so starkes Ziel haben, wollen Sie eine kombinierte Metrik. Das ist F-Maß. Wenn Sie es verwenden, vergleichen Sie einige Präzisions- und einige Erinnerungswerte.

Die ROC-Kurve wird häufig mit Angabe des F-Maßes gezeichnet. Sie finden diesen Artikel möglicherweise interessant, da er Erläuterungen zu verschiedenen Maßnahmen einschließlich ROC-Kurven enthält: http://binf.gmu.edu/mmasso/ROC101.pdf

Antwort

Die Wichtigkeit des F1-Scores ist je nach Szenario unterschiedlich. Nehmen wir an, die Zielvariable ist eine binäre Bezeichnung.

  • Ausgewogene Klasse: In dieser Situation kann die F1-Bewertung effektiv ignoriert werden, die Fehlklassifizierungsrate ist der Schlüssel.
  • Unausgeglichene Klasse, aber beide Klassen sind wichtig: Wenn die Klassenverteilung stark verzerrt ist (z. B. 80:20 oder 90:10), kann ein Klassifizierer einfach durch Auswahl der Mehrheitsklasse eine niedrige Fehlklassifizierungsrate erzielen. In einer solchen Situation würde ich den Klassifikator wählen, der in beiden Klassen hohe F1-Werte sowie eine niedrige Fehlklassifizierungsrate erzielt. Ein Klassifikator mit niedrigen F1-Werten sollte übersehen werden.
  • Unausgeglichene Klasse, aber eine Klasse ist wichtiger als die andere. Zum Beispiel Bei der Betrugserkennung ist es wichtiger, eine Instanz korrekt als betrügerisch zu kennzeichnen, als die nicht betrügerische. In diesem Fall würde ich den Klassifikator auswählen, der eine gute F1-Punktzahl nur für die wichtige Klasse hat. Denken Sie daran, dass der F1-Score pro Klasse verfügbar ist.

Antwort

F-Maß hat eine intuitive Bedeutung. Hier erfahren Sie, wie genau Ihr Klassifizierer ist (wie viele Instanzen er korrekt klassifiziert) und wie robust er ist (es fehlt keine signifikante Anzahl von Instanzen).

Mit hoher Präzision und geringem Rückruf ist Ihr Klassifizierer äußerst genau, es fehlt jedoch eine erhebliche Anzahl von Instanzen, die schwer zu klassifizieren sind. Dies ist nicht sehr nützlich.

Sehen Sie sich dieses Histogramm an. Geben Sie hier die Bildbeschreibung ein. Ignorieren Sie den ursprünglichen Zweck.

Nach rechts erhalten Sie hohe Präzision, aber geringer Rückruf. Wenn ich nur Instanzen mit einer Punktzahl über 0,9 auswähle, sind meine klassifizierten Instanzen äußerst präzise, ich habe jedoch eine erhebliche Anzahl von Instanzen übersehen. Experimente zeigen, dass der Sweet Spot hier bei 0,76 liegt, wobei das F-Maß 0,87 beträgt.

Kommentare

  • Der letzte Absatz ist irreführend. Es gibt kein Konzept für eine “ gute oder schlechte “ Punktzahl ohne den Kontext, in dem wir dies anwenden. In bestimmten Einstellungen sind möglicherweise 60% der Stand der Technik, in anderen Einstellungen sind 95% möglicherweise unannehmbar niedrig.

Antwort

Das F-Maß ist das harmonische Mittel Ihrer Präzision und Erinnerung. In den meisten Situationen haben Sie einen Kompromiss zwischen Präzision und Rückruf. Wenn Sie Ihren Klassifikator so optimieren, dass einer erhöht und der andere nicht bevorzugt wird, nimmt der harmonische Mittelwert schnell ab. Es ist jedoch am größten, wenn sowohl Präzision als auch Rückruf gleich sind.

Bei F-Maßen von 0,4 und 0,8 für Ihre Klassifikatoren können Sie erwarten, dass diese die Maximalwerte erreichen, die beim Abwägen der Präzision gegen den Rückruf erreicht werden.

Zur visuellen Bezugnahme sehen Sie sich diese Abbildung aus Wikipedia an:

Geben Sie hier die Bildbeschreibung ein.

Das F-Maß lautet H , A und B sind Rückruf und Präzision. Sie können eine erhöhen, die andere jedoch verringern.

Kommentare

  • Ich fand die “ gekreuzt Leitern “ Visualisierung ist etwas einfacher – für mich macht es die Gleichheit von A = B, was zu dem größten H führt, intuitiver

Antwort

Mit Präzision auf der y-Achse und Rückruf auf der x-Achse ist die Steigung der Pegelkurve $ F _ {\ beta} $ at ( 1, 1) ist $ -1 / \ beta ^ 2 $.

Gegeben $$ P = \ frac {TP} {TP + FP} $$ und $$ R = \ frac {TP} { TP + FN} $$, sei $ \ alpha $ das Verhältnis der Kosten für falsch negative zu falsch positiven Ergebnissen. Dann sind die Gesamtkosten des Fehlers proportional zu $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Die Steigung der Niveaukurve bei (1, 1) ist also $ – \ alpha $. Daher bedeutet für gute Modelle, die $ F _ {\ beta} $ verwenden, dass Sie falsch negative $ \ beta ^ 2 $ mal teurer als falsch positive betrachten.

Antwort

Die Formel für das F-Maß (F1, mit Beta = 1) ist dieselbe wie die Formel, die den äquivalenten Widerstand angibt, der sich aus zwei in der Physik parallel angeordneten Widerständen zusammensetzt (wobei der Faktor 2 vergessen wird).

Dies könnte Ihnen eine mögliche Interpretation geben und Sie können sowohl über elektronische als auch über thermische Widerstände nachdenken. Diese Analogie würde das F-Maß als den äquivalenten Widerstand definieren, der durch parallel angeordnete Empfindlichkeit und Präzision gebildet wird.

Für das F-Maß ist das maximal mögliche 1, und Sie verlieren den Widerstand, sobald einer der beiden ebenfalls den Widerstand verliert (das heißt, Sie erhalten einen Wert unter 1). Wenn Sie diese Größe und ihre Dynamik besser verstehen möchten, denken Sie an das physikalische Phänomen. Zum Beispiel scheint das F-Maß < = max (Empfindlichkeit, Präzision) zu sein.

Antwort

Die naheliegendste intuitive Bedeutung des f1-Scores wird als Mittelwert des Rückrufs und der Genauigkeit wahrgenommen. Lassen Sie es uns für Sie klären:

In einer Klassifizierungsaufgabe planen Sie möglicherweise, einen Klassifizierer mit hoher Genauigkeit zu erstellen. AND Rückruf. Zum Beispiel ein Klassifikator, der angibt, ob eine Person ehrlich ist oder nicht.

Aus Gründen der Genauigkeit können Sie normalerweise genau angeben, wie viele ehrlich sind Leute da draußen in einer bestimmten Gruppe. In diesem Fall, wenn Sie sich um hohe Präzision kümmern, gehen Sie davon aus, dass Sie eine Lügnerperson als ehrlich, aber nicht oft falsch einstufen können. Mit anderen Worten, hier versuchen Sie, Lügner von Ehrlichkeit als ganze Gruppe zu unterscheiden

Zum Rückruf werden Sie jedoch wirklich besorgt sein, wenn Sie eine Lügnerperson für ehrlich halten. Für Sie ist dies ein großer Verlust und ein großer Fehler, und Sie möchten es nicht tun nochmal. Es ist auch in Ordnung, wenn Sie jemanden als Lügner eingestuft haben, Ihr Modell jedoch niemals (oder meistens nicht) einen Lügner als ehrlich bezeichnen sollte. Mit anderen Worten, Sie konzentrieren sich hier auf eine bestimmte Klasse und versuchen dies nicht Machen Sie einen Fehler.

Nehmen wir nun den Fall, in dem Ihr Modell (1) genau ehrlich von einem Lügner identifizieren soll (Präzision) (2) jede Person aus beiden Klassen identifizieren soll (Rückruf). Dies bedeutet, dass Sie das Modell auswählen, das für beide Metriken eine gute Leistung erbringt.

Bei Ihrer Modellauswahlentscheidung wird dann versucht, jedes Modell anhand des Mittelwerts der beiden Metriken zu bewerten. Der F-Score ist der beste das kann dies beschreiben. Schauen wir uns die Formel an:

$$ Rückruf: \ text {r} = \ frac {tp} {tp + fn} $$

$$ Genauigkeit: \ text {p} = \ frac {tp} {tp + fp} $$

$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$

Wie Sie sehen, ist der höhere Rückruf UND Genauigkeit, je höher der F-Score.

Antwort

Sie können die F-Maß-Gleichung http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg auf andere Weise, wie $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$ Wenn also $ β ^ 2 < 1 $, sollte $ p $ wichtiger sein (oder größer, um a zu erhalten) höher $ F_ \ beta $).

Antwort

In dem Wissen, dass die F1-Punktzahl ein harmonisches Mittel für Präzision und Rückruf ist, ist unten a kleine kurze Informationen zu ihnen.

Ich würde sagen, bei Rückruf geht es mehr um falsche Negative „07d495867d“>

.

$$ \ text {Recall} = \ frac {tp} {tp + fn} $$

So viel Da weniger FN oder Null FN bedeutet, ist Ihre Modellvorhersage wirklich gut.

Während höhere Präzisionsmittel vorhanden sind, gibt es weniger FALSE POSITIVES $$ \ text {Präzision} = \ frac {tp} {tp + fp} $$

Gleich hier , Weniger oder Null False Positives bedeutet, dass die Modellvorhersage wirklich gut ist.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.