Ik heb een verwarringmatrix gemaakt en geprobeerd om nauwkeurigheidswaarden en geometrisch gemiddelde (g-gemiddelde) te krijgen. Het bleek dat de nauwkeurigheid ongeveer 0,83 is, terwijl het g-gemiddelde ongeveer 0,91 is. Is het mogelijk of heb ik een fout bij het berekenen van mijn metingen?

Antwoord

Opmerking: dit antwoord is bewerkt na een nuttige opmerking van usεr11852

Voor een 2×2 verwarringmatrix wordt de nauwkeurigheid doorgaans gedefinieerd als:

$$ \ text {Accuracy} = \ frac {TP + TN} {TP + FP + FN + TN} $$

Terwijl het g-gemiddelde is gedefinieerd als (zie bijv. Espindola & Ebecken 2005)

$$ g_ {PR} = \ sqrt {\ text {Precision} \ times \ text {Recall}} $$

of

$$ g_ {SS} = \ sqrt {\ text {Sensitivity} \ times \ text {Specificity}} $$

Waarbij $ \ tekst {Precision} = \ frac {TP} {TP + FP} $ , $ \ text {Recall} = \ text {Sensitivity} = \ frac {TP} { TP + FN} $ , en $ \ text {Specificity} = \ frac {TN} {TN + FP} $ .

Deze t twee definities geven verschillende resultaten, dus het is belangrijk om duidelijk te zijn welke wordt gebruikt. Merk op dat $ g_ {PR} $ en $ g_ {SS} $ mijn notaties zijn voor dit antwoord en niet algemeen gebruikte notatie.

$$ \ begin {align} g_ {PR} & = \ frac {TP } {\ sqrt {(TP + FP) (TP + FN)}} \\ g_ {SS} & = \ frac {\ sqrt {TP \ maal TN}} {\ sqrt {(TP + FN) (TN + FP)}} \ end {align} $$

Merk op dat TN in de formules voor nauwkeurigheid en $ g_ {SS} $ maar niet voor $ g_ {PR} $ .

Nauwkeurigheid is een slechte maatstaf, omdat een test / model kan behoorlijk slecht zijn, maar lijkt een goede nauwkeurigheid te hebben als er veel TNs zijn, en waarom het in sommige situaties zinloos is, bijvoorbeeld het ophalen van informatie (waar TNs niet interessant zijn en zelfs moeilijk te definiëren).

Hier zijn enkele voorbeelden waarbij de nauwkeurigheid minder is dan $ g_ {PR} $ en / of $ g_ {SS} $ :

Dus, in antwoord op uw vraag, is het volkomen aannemelijk dat de nauwkeurigheid lager is dan g-gemiddelde, maar het is de moeite waard om te controleren welk g-gemiddelde wordt gebruikt.

R. P. Espindola & N. F. F. Ebecken. (2005) Over het uitbreiden van F-maat- en G-gemiddelde-metrieken tot problemen met meerdere klassen. WIT-transacties op informatie- en communicatietechnologieën. Vol. 35. pp. 25-34.

Reacties

  • Dit is mogelijk misleidend omdat g- gemiddelde wordt vaak gedefinieerd in termen van terugroepen (gevoeligheid) en specificiteit, bijv. Kubat & Matwin (1997) ICML. Kunt u alstublieft verwijzen naar een gepubliceerd artikel dat g-mean definieert in termen van precisie: terugroepen?
  • Bedankt @ usεr11852 Ik heb het antwoord bijgewerkt om de twee alternatieve definities weer te geven.
  • Cool . Bedankt. (+1) Ongeacht je antwoord, ik vermoedde dat E & E zou verschijnen … Espindola & Ebecken (2005) citeert Kubat, Hulte & Matwin (1998) over de $ g $ -betekent met Precision-Recall. Kubat et al. (1998) geven een zachte definitie van $ g_ {PR} $ en citeren Lewis & Gale (1994) of L & W ( 1994) noemen het meetkundig gemiddelde helemaal niet. Over het algemeen denk ik dat het gebruik van $ g_ {PR} $ erg dubieus is. De enige formele referentie die ik heb gezien bij het onderzoeken van $ g_ {PR} $ is in ieder geval " Informatie ophalen " door van Rijsbergen waar het hele punt niet is om het te gebruiken en in plaats daarvan de $ F $ score te gebruiken.
  • Bedankt @ usεr11852 voor een uitstekende context. Het ' is al een tijdje geleden dat ik op dit gebied werkte (2011) en ik zou over het algemeen alleen de F-score gebruiken.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *