Kan g-bety være større enn nøyaktighet

Jeg opprettet forvirringsmatrise og prøvde å få nøyaktighetsverdier og geometrisk gjennomsnitt (g-middel). Det viste seg at nøyaktigheten er rundt 0,83 mens g-gjennomsnittet er rundt 0,91. Er det mulig, eller har jeg feil når jeg beregner målingene mine?

Svar

Merk: Dette svaret har blitt redigert etter en nyttig kommentar fra usεr11852

For en 2×2 forvirringsmatrise er nøyaktigheten vanligvis definert som:

$$ \ text {Accuracy} = \ frac {TP + TN} {TP + FP + FN + TN} $$

Mens g-gjennomsnittet er definert som (se f.eks. Espindola & Ebecken 2005)

$$ g_ {PR} = \ sqrt {\ text {Precision} \ times \ text {Recall}} $$

eller

$$ g_ {SS} = \ sqrt {\ text {Sensitivity} \ times \ text {Specificity}} $$

Where $ \ tekst {Precision} = \ frac {TP} {TP + FP} $ , $ \ text {Recall} = \ text {Sensitivity} = \ frac {TP} { TP + FN} $ og $ \ text {Specificity} = \ frac {TN} {TN + FP} $ .

Disse t wo definisjoner gir forskjellige resultater, så det er viktig å være klar over hva som brukes. Merk at $ g_ {PR} $ og $ g_ {SS} $ er notasjonene mine for dette svaret og ikke vanlig brukt notasjon.

$$ \ begin {align} g_ {PR} & = \ frac {TP } {\ sqrt {(TP + FP) (TP + FN)}} \\ g_ {SS} & = \ frac {\ sqrt {TP \ times TN}} {\ sqrt {(TP + FN) (TN + FP)}} \ end {align} $$

Legg merke til at TN har i formlene for nøyaktighet og $ g_ {SS} $ men ikke for $ g_ {PR} $ .

Nøyaktighet er et dårlig mål, fordi en test / modell kan være ganske dårlig, men ser ut til å ha god nøyaktighet hvis det er mange TN-er, og hvorfor det er meningsløst i noen situasjoner, for eksempel informasjonsinnhenting (hvor TN-er ikke er av interesse og til og med vanskelig å definere).

Her er noen eksempler der nøyaktigheten er mindre enn $ g_ {PR} $ og / eller $ g_ {SS} $ :

Så, som svar på spørsmålet ditt, er det helt sannsynlig at nøyaktigheten er lavere enn g-middel, men det er verdt å sørge for hvilket g-middel som brukes.

R. P. Espindola & N. F. F. Ebecken. (2005) Om utvidelse av F-måle- og G-middelverdier til flerklasseproblemer. WIT-transaksjoner om informasjons- og kommunikasjonsteknologi. Vol. 35. s. 25-34.

Kommentarer

Dette er potensielt misvisende fordi g- gjennomsnitt defineres ofte i form av tilbakekalling (sensitivitet) og spesifisitet, f.eks. Kubat & Matwin (1997) ICML. Kan du peke på et publisert papir som definerer g-middel når det gjelder Precision: Recall?
Thanks @ usεr11852 Jeg har oppdatert svaret for å gjenspeile de to alternative definisjonene.
Cool . Takk. (+1) Uansett svaret ditt, mistenkte jeg at E & E ville komme opp … Espindola & Ebecken (2005) siterer Kubat, Hulte & Matwin (1998) om $ g $ -midlet ved hjelp av Precision-Recall. Kubat et al. (1998) gjør en myk definisjon av $ g_ {PR} $ og siter Lewis & Gale (1994) om L & W ( 1994) ikke nevne det geometriske gjennomsnittet i det hele tatt. Generelt synes jeg bruken av $ g_ {PR} $ er veldig tvilsom. Hvis noe, er den eneste formelle referansen jeg har sett som nevnt ved undersøkelsen av $ g_ {PR} $ " Informasjonsinnhenting " av van Rijsbergen der hele poenget er ikke å bruke den og bruke $ F $-poengsummen i stedet.
Takk @ usεr11852 for utmerket sammenheng. Det ' har gått en stund siden jeg arbeidet i dette feltet (2011), og jeg ville generelt bare brukt F-poengsum.

Svar

Kommentarer

Legg igjen en kommentar Avbryt svar