Utworzyłem macierz pomyłki i próbuję uzyskać wartości dokładności i średnią geometryczną (g-średnią). Okazało się, że dokładność wynosi około 0,83, podczas gdy g-średnia to około 0,91. Czy to możliwe, czy popełniłem błąd podczas obliczania miar?

Odpowiedź

Uwaga: ta odpowiedź została zredagowano po pomocnym komentarzu z usεr11852

W przypadku macierzy pomyłki 2×2 dokładność jest zwykle definiowana jako:

$$ \ text {Accuracy} = \ frac {TP + TN} {TP + FP + FN + TN} $$

Chociaż średnia g jest zdefiniowana jako (patrz np. Espindola & Ebecken 2005)

$$ g_ {PR} = \ sqrt {\ text {Precision} \ times \ text {Recall}} $$

lub

$$ g_ {SS} = \ sqrt {\ text {Sensitivity} \ times \ text {Specyficzność}} $$

Gdzie $ \ text {Precision} = \ frac {TP} {TP + FP} $ , $ \ text {Recall} = \ text {Sensitivity} = \ frac {TP} { TP + FN} $ i $ \ text {Specificity} = \ frac {TN} {TN + FP} $ .

Te t wo definicje dają różne wyniki, dlatego ważne jest, aby było jasne, która z nich jest używana. Zwróć uwagę, że $ g_ {PR} $ i $ g_ {SS} $ to moje zapisy w tej odpowiedzi i niezbyt często używana notacja.

$$ \ begin {align} g_ {PR} & = \ frac {TP } {\ sqrt {(TP + FP) (TP + FN)}} \\ g_ {SS} & = \ frac {\ sqrt {TP \ times TN}} {\ sqrt {(TP + FN) (TN + FP)}} \ end {align} $$

Zauważ, że TN zawiera formuły na dokładność i $ g_ {SS} $ , ale nie dla $ g_ {PR} $ .

Dokładność to zła miara, ponieważ test / model może być całkiem zły, ale wydaje się mieć dobrą dokładność, jeśli jest dużo TN, i dlaczego jest bez znaczenia w niektórych sytuacjach, np. przy wyszukiwaniu informacji (gdzie TN nie są interesujące, a nawet trudne do zdefiniowania).

Oto kilka przykładów, w których dokładność jest mniejsza niż $ g_ {PR} $ i / lub $ g_ {SS} $ :

Odpowiadając na twoje pytanie, jest całkowicie prawdopodobne, że dokładność jest niższa niż g-średnia, ale warto upewnić się, która średnia g jest używana.

R. P. Espindola & N. F. F. Ebecken. (2005) O rozszerzaniu miar F i średniej G na problemy wieloklasowe. Transakcje WIT dotyczące technologii informacyjnych i komunikacyjnych. Vol. 35. s. 25-34.

Komentarze

  • Jest to potencjalnie mylące, ponieważ g- średnia jest bardzo często definiowana w kategoriach przypominania (czułości) i specyficzności, np. Kubat & Matwin (1997) ICML. Czy możesz wskazać opublikowany artykuł, w którym zdefiniowano g-mean w odniesieniu do Precision: Recall?
  • Thanks @ usεr11852 Zaktualizowałem odpowiedź, aby odzwierciedlić dwie alternatywne definicje.
  • Super . Dzięki. (+1) Niezależnie od Twojej odpowiedzi podejrzewam, że E & E pojawi się … Espindola & Ebecken (2005) cytuje Kubata, Hulte & Matwin (1998) o średniej $ g $ przy użyciu Precision-Recall. Kubat i in. (1998) zrób miękką definicję $ g_ {PR} $ i zacytuj Lewisa & Gale (1994), czy L & W ( 1994) w ogóle nie wspominają o średniej geometrycznej. Ogólnie uważam, że użycie $ g_ {PR} $ jest bardzo wątpliwe. Jeśli już, jedyne formalne odniesienie, o którym wspomniałem podczas badania $ g_ {PR} $, to " Pobieranie informacji " autorstwa van Rijsbergena gdzie chodzi o to, aby nie go użyć i zamiast tego użyć wyniku $ F $.
  • Dzięki @ usεr11852 za doskonały kontekst. ' Minęło trochę czasu, odkąd pracowałem w tej dziedzinie (2011) i generalnie używałbym tylko wyniku F.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *