Kan g-middel være større end nøjagtighed

Jeg oprettede forvirringsmatrix og forsøgte at få nøjagtighedsværdier og geometrisk gennemsnit (g-middel). Det viste sig, at nøjagtigheden er omkring 0,83, mens g-middel er omkring 0,91. Er det muligt, eller har jeg en fejl ved beregning af mine mål?

Svar

Bemærk: Dette svar er blevet redigeret efter en nyttig kommentar fra usεr11852

For en 2×2 forvirringsmatrix defineres nøjagtigheden typisk som:

$$ \ text {Accuracy} = \ frac {TP + TN} {TP + FP + FN + TN} $$

Mens g-middelværdien er defineret som (se f.eks. Espindola & Ebecken 2005)

$$ g_ {PR} = \ sqrt {\ text {Precision} \ times \ text {Recall}} $$

eller

$$ g_ {SS} = \ sqrt {\ text {Sensitivity} \ times \ text {Specificity}} $$

Hvor $ \ tekst {Precision} = \ frac {TP} {TP + FP} $ , $ \ text {Recall} = \ text {Sensitivity} = \ frac {TP} { TP + FN} $ og $ \ text {Specificity} = \ frac {TN} {TN + FP} $ .

Disse t wo definitioner giver forskellige resultater, så det er vigtigt at være klar over, hvad der bruges. Bemærk, at $ g_ {PR} $ og $ g_ {SS} $ er mine notationer for dette svar og ikke almindeligt anvendt notation.

$$ \ begin {align} g_ {PR} & = \ frac {TP } {\ sqrt {(TP + FP) (TP + FN)}} \\ g_ {SS} & = \ frac {\ sqrt {TP \ times TN}} {\ sqrt {(TP + FN) (TN + FP)}} \ end {align} $$

Bemærk, at TN har funktioner i formlerne for nøjagtighed og $ g_ {SS} $ men ikke til $ g_ {PR} $ .

Nøjagtighed er en dårlig foranstaltning, fordi en test / model kan være ret dårlig, men ser ud til at have god nøjagtighed, hvis der er mange TNer, og hvorfor det er meningsløst i nogle situationer, f.eks. hentning af information (hvor TNer ikke er interessante og endda vanskelige at definere).

Her er nogle eksempler, hvor nøjagtigheden er mindre end $ g_ {PR} $ og / eller $ g_ {SS} $ :

Så som svar på dit spørgsmål er det helt sandsynligt, at nøjagtigheden er lavere end g-middelværdien, men det er værd at sørge for, hvilket g-gennemsnit der bruges.

R. P. Espindola & N. F. F. Ebecken. (2005) Om udvidelse af F-måle- og G-middelværdier til flere klasses problemer. WIT-transaktioner om informations- og kommunikationsteknologier. Vol. 35. s. 25-34.

Kommentarer

Dette er potentielt vildledende, fordi g- gennemsnit defineres meget ofte i form af tilbagekaldelse (følsomhed) og specificitet, f.eks. Kubat & Matwin (1997) ICML. Kan du venligst pege på et offentliggjort papir, der definerer g-middel med hensyn til Precision: Recall?
Tak @ usεr11852 Jeg har opdateret svaret for at afspejle de to alternative definitioner.
Cool . Tak. (+1) Uanset dit svar, formodede jeg, at E & E ville komme op … Espindola & Ebecken (2005) citerer Kubat, Hulte & Matwin (1998) om $ g $ -midlet ved hjælp af Precision-Recall. Kubat et al. (1998) lav en blød definition af $ g_ {PR} $ og citer Lewis & Gale (1994) om L & W ( 1994) nævner slet ikke det geometriske gennemsnit. Generelt synes jeg brugen af $ g_ {PR} $ er meget tvivlsom. Hvis noget, er den eneste formelle reference, jeg har set, nævnt ved undersøgelse af $ g_ {PR} $, er " Indhentning af information " af van Rijsbergen hvor hele pointen er ikke at bruge det og bruge $ F $ score i stedet.
Tak @ usεr11852 for fremragende kontekst. Det ' har været et stykke tid siden jeg arbejdede inden for dette felt (2011), og jeg ville generelt kun bruge F-score.

Svar

Kommentarer

Skriv et svar Annuller svar