Ich habe eine Verwirrungsmatrix erstellt und versucht, Genauigkeitswerte und den geometrischen Mittelwert (g-Mittelwert) zu erhalten. Es stellte sich heraus, dass die Genauigkeit bei 0,83 liegt, während der g-Mittelwert bei 0,91 liegt. Ist es möglich oder habe ich einen Fehler bei der Berechnung meiner Maßnahmen?
Antwort
Hinweis: Diese Antwort wurde gegeben bearbeitet nach einem hilfreichen Kommentar von usεr11852
Für eine 2×2-Verwirrungsmatrix wird die Genauigkeit normalerweise wie folgt definiert:
$$ \ text {Genauigkeit} = \ frac {TP + TN} {TP + FP + FN + TN} $$
Während der g-Mittelwert definiert ist als (siehe z. B. Espindola & Ebecken 2005)
$$ g_ {PR} = \ sqrt {\ text {Precision} \ times \ text {Recall}} $$
oder
$$ g_ {SS} = \ sqrt {\ text {Sensitivity} \ times \ text {Spezifität}} $$
Wobei $ \ text {Precision} = \ frac {TP} {TP + FP} $ , $ \ text {Recall} = \ text {Sensitivity} = \ frac {TP} { TP + FN} $ und $ \ text {Spezifität} = \ frac {TN} {TN + FP} $ .
Diese t Da zwei Definitionen unterschiedliche Ergebnisse liefern, ist es wichtig, klar zu sein, welche verwendet werden. Beachten Sie, dass $ g_ {PR} $ und $ g_ {SS} $ meine Notationen für diese Antwort sind und nicht häufig verwendete Notation.
$$ \ begin {align} g_ {PR} & = \ frac {TP } {\ sqrt {(TP + FP) (TP + FN)}} \\ g_ {SS} & = \ frac {\ sqrt {TP \ times TN}} {\ sqrt {(TP + FN) (TN + FP)}} \ end {align} $$
Beachten Sie, dass TN in den Formeln für Genauigkeit und $ g_ {SS} $ , aber nicht für $ g_ {PR} $ .
Genauigkeit ist ein schlechtes Maß, weil Ein Test / Modell kann ziemlich schlecht sein, scheint aber eine gute Genauigkeit zu haben, wenn es viele TNs gibt und warum es in einigen Situationen bedeutungslos ist, z. B. beim Abrufen von Informationen (wo TNs nicht von Interesse sind und sogar schwer zu definieren sind).
Hier einige Beispiele, bei denen die Genauigkeit geringer ist als $ g_ {PR} $ und / oder $ g_ {SS} $ :
Als Antwort auf Ihre Frage ist es durchaus plausibel, dass die Genauigkeit niedriger als der g-Mittelwert ist, aber es lohnt sich sicherzustellen, welcher g-Mittelwert verwendet wird.
R. P. Espindola & N.F.F. Ebecken. (2005) Zur Erweiterung der F-Mess- und G-Mittelwert-Metriken auf Mehrklassenprobleme. WIT-Transaktionen zu Informations- und Kommunikationstechnologien. Vol. 35. S. 25-34.
Kommentare
- Dies ist möglicherweise irreführend, weil g- Der Mittelwert wird sehr oft in Bezug auf Rückruf (Empfindlichkeit) und Spezifität definiert, z. Kubat & Matwin (1997) ICML. Können Sie bitte auf ein veröffentlichtes Papier verweisen, das den g-Mittelwert in Bezug auf Präzision: Rückruf definiert?
- Danke @ usεr11852 Ich habe die Antwort aktualisiert, um die beiden alternativen Definitionen widerzuspiegeln.
- Cool . Vielen Dank. (+1) Unabhängig von Ihrer Antwort vermutete ich, dass E & E auftauchen würde … Espindola & Ebecken (2005) zitiert Kubat, Hulte & Matwin (1998) über das $ g $ -Mittel mit Precision-Recall. Kubat et al. (1998) machen eine weiche Definition des $ g_ {PR} $ und zitieren Lewis & Gale (1994), ob L & W ( 1994) erwähnen das geometrische Mittel überhaupt nicht. Im Allgemeinen halte ich die Verwendung von $ g_ {PR} $ für sehr zweifelhaft. Wenn überhaupt, ist die einzige formale Referenz, die ich bei der Untersuchung von $ g_ {PR} $ erwähnt habe, " Information Retrieval " von van Rijsbergen Dabei geht es darum, nicht zu verwenden und stattdessen den $ F $ Score zu verwenden.
- Vielen Dank an @ usεr11852 für den hervorragenden Kontext. ' ist schon eine Weile her, seit ich in diesem Bereich gearbeitet habe (2011), und ich würde im Allgemeinen nur die F-Punktzahl verwenden.