Jeg oprettede forvirringsmatrix og forsøgte at få nøjagtighedsværdier og geometrisk gennemsnit (g-middel). Det viste sig, at nøjagtigheden er omkring 0,83, mens g-middel er omkring 0,91. Er det muligt, eller har jeg en fejl ved beregning af mine mål?
Svar
Bemærk: Dette svar er blevet redigeret efter en nyttig kommentar fra usεr11852
For en 2×2 forvirringsmatrix defineres nøjagtigheden typisk som:
$$ \ text {Accuracy} = \ frac {TP + TN} {TP + FP + FN + TN} $$
Mens g-middelværdien er defineret som (se f.eks. Espindola & Ebecken 2005)
$$ g_ {PR} = \ sqrt {\ text {Precision} \ times \ text {Recall}} $$
eller
$$ g_ {SS} = \ sqrt {\ text {Sensitivity} \ times \ text {Specificity}} $$
Hvor $ \ tekst {Precision} = \ frac {TP} {TP + FP} $ , $ \ text {Recall} = \ text {Sensitivity} = \ frac {TP} { TP + FN} $ og $ \ text {Specificity} = \ frac {TN} {TN + FP} $ .
Disse t wo definitioner giver forskellige resultater, så det er vigtigt at være klar over, hvad der bruges. Bemærk, at $ g_ {PR} $ og $ g_ {SS} $ er mine notationer for dette svar og ikke almindeligt anvendt notation.
$$ \ begin {align} g_ {PR} & = \ frac {TP } {\ sqrt {(TP + FP) (TP + FN)}} \\ g_ {SS} & = \ frac {\ sqrt {TP \ times TN}} {\ sqrt {(TP + FN) (TN + FP)}} \ end {align} $$
Bemærk, at TN har funktioner i formlerne for nøjagtighed og $ g_ {SS} $ men ikke til $ g_ {PR} $ .
Nøjagtighed er en dårlig foranstaltning, fordi en test / model kan være ret dårlig, men ser ud til at have god nøjagtighed, hvis der er mange TNer, og hvorfor det er meningsløst i nogle situationer, f.eks. hentning af information (hvor TNer ikke er interessante og endda vanskelige at definere).
Her er nogle eksempler, hvor nøjagtigheden er mindre end $ g_ {PR} $ og / eller $ g_ {SS} $ :
Så som svar på dit spørgsmål er det helt sandsynligt, at nøjagtigheden er lavere end g-middelværdien, men det er værd at sørge for, hvilket g-gennemsnit der bruges.
R. P. Espindola & N. F. F. Ebecken. (2005) Om udvidelse af F-måle- og G-middelværdier til flere klasses problemer. WIT-transaktioner om informations- og kommunikationsteknologier. Vol. 35. s. 25-34.
Kommentarer
- Dette er potentielt vildledende, fordi g- gennemsnit defineres meget ofte i form af tilbagekaldelse (følsomhed) og specificitet, f.eks. Kubat & Matwin (1997) ICML. Kan du venligst pege på et offentliggjort papir, der definerer g-middel med hensyn til Precision: Recall?
- Tak @ usεr11852 Jeg har opdateret svaret for at afspejle de to alternative definitioner.
- Cool . Tak. (+1) Uanset dit svar, formodede jeg, at E & E ville komme op … Espindola & Ebecken (2005) citerer Kubat, Hulte & Matwin (1998) om $ g $ -midlet ved hjælp af Precision-Recall. Kubat et al. (1998) lav en blød definition af $ g_ {PR} $ og citer Lewis & Gale (1994) om L & W ( 1994) nævner slet ikke det geometriske gennemsnit. Generelt synes jeg brugen af $ g_ {PR} $ er meget tvivlsom. Hvis noget, er den eneste formelle reference, jeg har set, nævnt ved undersøgelse af $ g_ {PR} $, er " Indhentning af information " af van Rijsbergen hvor hele pointen er ikke at bruge det og bruge $ F $ score i stedet.
- Tak @ usεr11852 for fremragende kontekst. Det ' har været et stykke tid siden jeg arbejdede inden for dette felt (2011), og jeg ville generelt kun bruge F-score.