Am creat o matrice de confuzie și încerc să obțin valori de precizie și medie geometrică (g-mean). S-a dovedit că precizia este în jur de 0,83, în timp ce media g este în jur de 0,91. Este posibil sau am o greșeală la calcularea măsurilor mele?

Răspuns

Notă: Acest răspuns a fost modificat în urma unui comentariu util din usεr11852

Pentru o matrice de confuzie 2×2, precizia este de obicei definită ca:

$$ \ text {Accuracy} = \ frac {TP + TN} {TP + FP + FN + TN} $$

În timp ce media g este definită ca (vezi, de exemplu, Espindola & Ebecken 2005)

$$ g_ {PR} = \ sqrt {\ text {Precision} \ times \ text {Recall}} $$

sau

$$ g_ {SS} = \ sqrt {\ text {Sensibilitate} \ times \ text {Specificity}} $$

Unde $ \ text {Precision} = \ frac {TP} {TP + FP} $ , $ \ text {Recall} = \ text {Sensitivity} = \ frac {TP} { TP + FN} $ și $ \ text {Specificity} = \ frac {TN} {TN + FP} $ .

Acestea t definițiile oferă rezultate diferite, deci este important să fie clar care se folosește. Rețineți că $ g_ {PR} $ și $ g_ {SS} $ sunt notațiile mele pentru acest răspuns și notație neutilizată.

$$ \ begin {align} g_ {PR} & = \ frac {TP } {\ sqrt {(TP + FP) (TP + FN)}} \\ g_ {SS} & = \ frac {\ sqrt {TP \ times TN}} {\ sqrt {(TP + FN) (TN + FP)}} \ end {align} $$

Observați că TN apare în formulele de precizie și $ g_ {SS} $ , dar nu pentru $ g_ {PR} $ .

Precizia este o măsură greșită, deoarece un test / model poate fi destul de rău, dar pare să aibă o acuratețe bună dacă există o mulțime de TN-uri și de ce nu are sens în unele situații, de exemplu, recuperarea informațiilor (în care TN-urile nu prezintă niciun interes și sunt chiar dificil de definit).

Iată câteva exemple în care precizia este mai mică de $ g_ {PR} $ și / sau $ g_ {SS} $ :

Deci, ca răspuns la întrebarea dvs., este complet plauzibil ca acuratețea să fie mai mică decât media g, dar merită să vă asigurați care medie g este utilizată.

R. P. Espindola & N. F. F. Ebecken. (2005) Despre extinderea măsurătorilor F-media și G-media la problemele din mai multe clase. Tranzacții WIT privind tehnologiile informației și comunicațiilor. Vol. 35. pp. 25-34.

Comentarii

  • Acest lucru este potențial înșelător, deoarece g- media este foarte des definită în termeni de Recall (Sensibilitate) și Specificitate, de ex. Kubat & Matwin (1997) ICML. Puteți indica un articol publicat care definește media g în termeni de precizie: reamintim?
  • Mulțumesc @ usεr11852 Am actualizat răspunsul pentru a reflecta cele două definiții alternative.
  • Mă rog . Mulțumiri. (+1) Indiferent de răspunsul dvs., bănuiam că E & E va veni … Espindola & Ebecken (2005) îl citează pe Kubat, Hulte & Matwin (1998) despre valoarea de $ g $ folosind Precision-Recall. Kubat și colab. (1998) faceți o definiție simplă a $ g_ {PR} $ și citați pe Lewis & Gale (1994) dacă L & W ( 1994) nu menționează deloc media geometrică. În general, cred că utilizarea lui $ g_ {PR} $ este foarte dubioasă. Dacă este ceva, singura referință formală pe care am văzut-o menționată la examinarea $ g_ {PR} $ este " Recuperarea informațiilor " de van Rijsbergen unde întregul punct este nu să-l folosiți și să folosiți în schimb scorul $ F $.
  • Vă mulțumim @ usεr11852 pentru context excelent. ' a trecut ceva timp de când am lucrat în acest domeniu (2011) și, în general, aș folosi doar scorul F.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *