Chciałbym wiedzieć, jak interpretować różnicę wartości miary f. Wiem, że f-miara jest wyważoną średnią między dokładnością a pamięcią, ale pytam o praktyczne znaczenie różnicy między F-miarami.
Na przykład, jeśli klasyfikator C1 ma dokładność 0,4 a inny klasyfikator C2 z dokładnością 0,8, wtedy możemy powiedzieć, że C2 poprawnie sklasyfikował podwójną liczbę przykładów testowych w porównaniu z C1. Jeśli jednak klasyfikator C1 ma miarę F równą 0,4 dla pewnej klasy, a inny klasyfikator C2 miarę F równą 0,8, co możemy powiedzieć o różnicy w wydajności dwóch klasyfikatorów? Czy możemy powiedzieć, że C2 sklasyfikował poprawnie X więcej wystąpień niż C1?
Komentarze
- Ja ' Nie jestem pewien, czy możesz wiele powiedzieć, ponieważ miara F jest funkcją precyzji i zapamiętywania: en.wikipedia.org/wiki/F1_score . Możesz jednak wykonać obliczenia matematyczne i utrzymać jedną stałą (precyzję lub pamięć) i powiedzieć coś o drugiej.
Odpowiedz
Nie mogę wymyślić intuicyjnego znaczenia miary F, ponieważ jest to tylko połączona metryka. Oczywiście precyzja i pamięć jest bardziej intuicyjna niż miara F.
Ale używając dwóch wartości, często nie możemy określić, czy jeden algorytm jest lepszy od drugiego. Na przykład, jeśli jeden algorytm ma wyższą precyzję, ale mniejszą pamięć niż inny, jak możesz stwierdzić, który algorytm jest lepszy?
Jeśli masz w głowie konkretny cel, taki jak „Precyzja jest królem. Nie wiem” nie obchodzi mnie przypominanie ”, to nie ma problemu. Wyższa precyzja jest lepsza. Ale jeśli nie masz tak mocnego celu, będziesz potrzebować połączonych danych. To jest miara F. Używając go, porównasz pewną dokładność i część przypomnień.
Krzywa ROC jest często rysowana z podaniem miary F. Ten artykuł może być interesujący, ponieważ zawiera wyjaśnienie kilku miar, w tym krzywych ROC: http://binf.gmu.edu/mmasso/ROC101.pdf
Odpowiedź
Znaczenie wyniku F1 jest różne w zależności od scenariusza. Załóżmy, że zmienną docelową jest etykieta binarna.
- Klasa zrównoważona: W tej sytuacji wynik F1 można skutecznie zignorować, kluczem jest współczynnik błędnej klasyfikacji.
- Niezrównoważona klasa, ale obie klasy są ważne: jeśli rozkład klas jest mocno wypaczony (np. 80:20 lub 90:10), klasyfikator może uzyskać niski współczynnik błędnej klasyfikacji po prostu wybierając klasę większości. W takiej sytuacji wybrałbym klasyfikator, który uzyskuje wysokie wyniki F1 w obu klasach, a także niski współczynnik błędnej klasyfikacji. Klasyfikator, który uzyskuje niskie wyniki F1, powinien zostać przeoczony.
- Klasa niezbalansowana, ale jedna klasa jest ważniejsza od drugiej. Np. w wykrywaniu oszustw ważniejsze jest prawidłowe oznaczenie wystąpienia jako oszukańczego, w przeciwieństwie do etykietowania tego, który nie jest oszukańczy. W tym przypadku wybrałbym klasyfikator, który ma dobry wynik F1 tylko w ważnej klasie . Przypomnij sobie, że wynik F1 jest dostępny dla każdej klasy.
Odpowiedź
F-miara ma znaczenie intuicyjne. Mówi ci, jak dokładny jest twój klasyfikator (ile instancji klasyfikuje poprawnie), a także jak solidny jest (nie pomija znacznej liczby instancji).
Klasyfikator z dużą precyzją, ale niską rozpoznawalnością jest niezwykle dokładny, ale pomija znaczną liczbę wystąpień, które są trudne do sklasyfikowania. Nie jest to zbyt przydatne.
Spójrz na ten histogram. Zignoruj jego pierwotne przeznaczenie.
Po prawej stronie otrzymasz wysoka precyzja, ale niska pamięć. Jeśli wybiorę tylko instancje z wynikiem powyżej 0,9, moje sklasyfikowane instancje będą niezwykle precyzyjne, jednak przegapię znaczną liczbę instancji. Eksperymenty wskazują, że słodki punkt jest tutaj około 0,76, gdzie miara F wynosi 0,87.
Komentarze
- Ostatni akapit wprowadza w błąd. Nie ma pojęcia ” dobrych lub złych ” wyników bez kontekstu, w którym to stosujemy. W niektórych ustawieniach może 60% to najnowocześniejszy stan, w innych 95% może być niedopuszczalnie niskie.
Odpowiedź
Miara F to średnia harmoniczna Twojej precyzji i pamięci. W większości sytuacji istnieje kompromis między precyzją a przywołaniem. Jeśli zoptymalizujesz swój klasyfikator, aby zwiększyć jeden i nie lubić drugiego, średnia harmoniczna szybko spada. Jest jednak największa, gdy zarówno precyzja, jak i rozpoznawalność są równe.
Biorąc pod uwagę miary F równe 0,4 i 0,8 dla twoich klasyfikatorów, możesz spodziewać się, że są to maksymalne wartości osiągane podczas ważenia precyzji i przypomnienia.
W celach wizualnych spójrz na ten rysunek z Wikipedii :
Miarą F jest H , A i B to przypominanie i precyzja. Możesz zwiększyć jeden, ale drugi maleje.
Komentarze
- Znalazłem ” Przekreślone Drabiny ” wizualizacja jest nieco prostsza – dla mnie sprawia, że równość A = B sprawia, że największe H jest bardziej intuicyjne.
Odpowiedź
Z precyzją na osi y i przywołaj na osi x, nachylenie krzywej poziomu $ F _ {\ beta} $ at ( 1, 1) wynosi -1 $ / \ beta ^ 2 $.
Biorąc pod uwagę $$ P = \ frac {TP} {TP + FP} $$ i $$ R = \ frac {TP} { TP + FN} $$, niech $ \ alpha $ będzie stosunkiem kosztu fałszywych wyników negatywnych do fałszywych alarmów. Wtedy całkowity koszt błędu jest proporcjonalny do $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Zatem nachylenie krzywej poziomu w (1, 1) wynosi $ – \ alpha $. Dlatego w przypadku dobrych modeli używanie $ F _ {\ beta} $ oznacza, że uważasz, że fałszywe negatywy $ \ beta ^ 2 $ razy droższe niż fałszywe alarmy.
Odpowiedź
Wzór na miarę F (F1, gdzie beta = 1) jest taki sam jak wzór podający opór równoważny złożony z dwóch oporów umieszczonych równolegle w fizyce (zapominając o współczynniku 2).
To może dać ci możliwą interpretację i możesz pomyśleć o oporze elektronicznym lub termicznym. Ta analogia definiowałaby miarę F jako równoważną rezystancję utworzoną przez czułość i precyzję umieszczoną równolegle.
W przypadku miary F maksymalne możliwe to 1 i tracisz opór, gdy tylko jeden z dwóch również straci opór (to znaczy, uzyskaj wartość poniżej 1). Jeśli chcesz lepiej zrozumieć tę wielkość i jej dynamikę, pomyśl o zjawisku fizycznym. Na przykład wydaje się, że miara F < = max (czułość, precyzja).
Odpowiedź
Najbliższe intuicyjne znaczenie wyniku f1 jest postrzegane jako średnia przypomnienia i precyzja. Wyjaśnijmy to sobie:
W zadaniu klasyfikacyjnym możesz planować zbudowanie klasyfikatora o wysokiej precyzji AND przypomnij sobie. Na przykład klasyfikator, który mówi, czy dana osoba jest uczciwa, czy nie.
Aby uzyskać precyzję, zazwyczaj jesteś w stanie dokładnie określić, ile uczciwych ludzi w danej grupie. W tym przypadku, dbając o wysoką precyzję, zakładasz, że możesz błędnie sklasyfikować kłamcę jako uczciwego, ale nie często. Innymi słowy, tutaj próbujesz odróżnić kłamcę od uczciwego jako całej grupy .
Jednak pamiętaj, że będziesz naprawdę zaniepokojony, jeśli uważasz, że kłamca jest uczciwy. Dla ciebie będzie to wielka strata i duży błąd, a nie chcesz tego robić jeszcze raz. Ponadto, jest w porządku, jeśli sklasyfikujesz kogoś uczciwego jako kłamcę, ale Twój model nigdy nie powinien (lub głównie nie) twierdzić, że kłamca jest uczciwy. Innymi słowy, tutaj koncentrujesz się na określonej klasie i starasz się tego nie robić popełnij błąd.
Teraz weźmy przypadek, w którym chcesz, aby Twój model (1) dokładnie identyfikował uczciwego od kłamcy (precyzja) (2) identyfikował każdą osobę z obu klas (przypomnij sobie). Oznacza to, że wybierzesz model, który będzie działał dobrze w przypadku obu wskaźników.
Podczas decyzji dotyczącej wyboru modelu spróbujesz ocenić każdy model na podstawie średniej z dwóch wskaźników. Wynik F jest najlepszym który może to opisać. Przyjrzyjmy się formule:
$$ Recall: \ text {r} = \ frac {tp} {tp + fn} $$
$$ Precision: \ text {p} = \ frac {tp} {tp + fp} $$
$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$
Jak widzisz, im wyższa wartość zapamiętania AND precyzja, tym wyższy wynik F.
Odpowiedź
możesz napisać równanie F-miary http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg w inny sposób, na przykład $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$ więc, gdy $ β ^ 2 < 1 $, $ p $ powinno być ważniejsze (lub większe, aby uzyskać wyższa $ F_ \ beta $).
Odpowiedź
Wiedząc, że wynik F1 jest średnią harmoniczną precyzji i przypomnienia, poniżej znajduje się krótka informacja na ich temat.
Powiedziałbym, że Przypomnijmy bardziej o fałszywie negatywnych wynikach .ie, Wyższe wywołanie oznacza mniej FALSE NEGATIVES .
$$ \ text {Recall} = \ frac {tp} {tp + fn} $$
Tyle ponieważ mniej FN lub Zero FN oznacza, przewidywanie modelu jest naprawdę dobre.
Podczas gdy przy wyższych średnich Precyzji jest mniej FALSE POSITIVES $$ \ text {Precision} = \ frac {tp} {tp + fp} $$
To samo tutaj , Mniej lub zero fałszywych trafień oznacza, że przewidywanie modelu jest naprawdę dobre.