Chtěl bych vědět, jak interpretovat rozdíl hodnot f-opatření. Vím, že f-opatření je vyvážený průměr mezi přesností a odvoláním, ale ptám se na praktický význam rozdílu v F-opatřeních.
Například pokud má klasifikátor C1 přesnost 0,4 a další klasifikátor C2 s přesností 0,8, pak můžeme říci, že C2 správně klasifikoval dvojnásobek testovacích příkladů ve srovnání s C1. Pokud má ale klasifikátor C1 pro určitou třídu F-míru 0,4 a další C2 má F-míru 0,8, co můžeme říci o rozdílu ve výkonu 2 klasifikátorů? Můžeme říci, že C2 klasifikoval X více případů správně než C1?
Komentáře
- I ‚ si nejsem jistý, že toho můžete říct hodně, protože F-míra je funkce přesnosti i odvolání: en.wikipedia.org/wiki/F1_score . Matematiku však můžete udělat, podržet jednu (buď přesnost, nebo vyvolat) konstantní a něco říct o druhé.
Odpovědět
Nemohu myslet na intuitivní význam míry F, protože je to jen kombinovaná metrika. Co je intuitivnější než F-měření, je samozřejmě přesnost a vybavenost.
Ale pomocí dvou hodnot často nemůžeme určit, zda je jeden algoritmus lepší než jiný. Například pokud má jeden algoritmus vyšší přesnost, ale nižší vybavenost než ostatní, jak poznáte, který algoritmus je lepší?
Pokud máte na mysli konkrétní cíl, například „Přesnost je král. Já ne“ moc se nestarám o odvolání „, pak není problém. Vyšší přesnost je lepší. Ale pokud nemáte tak silný cíl, budete chtít kombinovanou metriku. To je F-míra. Jeho použitím porovnáte část přesnosti a část vyvolání.
Křivka ROC je často nakreslena a uvádí F-míru. Tento článek vás může zajímat, protože obsahuje vysvětlení několika opatření, včetně křivek ROC: http://binf.gmu.edu/mmasso/ROC101.pdf
Odpověď
Důležitost skóre F1 se liší podle scénáře. Předpokládejme, že cílová proměnná je binární štítek.
- Vyvážená třída: V této situaci lze skóre F1 efektivně ignorovat, míra chybné klasifikace je klíčová.
- Nevyvážená třída, ale obě třídy jsou důležité: Pokud je distribuce tříd velmi zkosená (například 80:20 nebo 90:10), může klasifikátor získat nízkou míru chybné klasifikace jednoduše výběrem většinové třídy. V takové situaci bych zvolil klasifikátor, který získá vysoké skóre F1 v obou třídách a nízkou míru chybné klasifikace. Klasifikátor, který má nízké skóre F1, by měl být přehlédnut.
- Nevyvážená třída, ale jedna třída, pokud je důležitější než druhá. Například v Detekce podvodů je důležitější správně označit instanci jako podvodnou, na rozdíl od označení nekalého. V tomto případě bych vybral klasifikátor, který má dobré skóre F1 pouze v důležité třídě . Připomeňme, že skóre F1 je k dispozici pro každou třídu.
Odpověď
F-measure má intuitivní význam. Říká vám, jak přesný je váš klasifikátor (kolik instancí klasifikuje správně) a jak robustní je (nechybí mu významný počet instancí).
S vysokou přesností, ale s nízkým vyvoláním je váš klasifikátor extrémně přesný, ale chybí mu značné množství případů, které je obtížné klasifikovat. To není příliš užitečné.
Podívejte se na tento histogram. Ignorujte jeho původní účel.
Směrem doprava získáte vysoká přesnost, ale nízké vyvolání. Pokud vyberu pouze instance se skóre nad 0,9, budou mé klasifikované instance extrémně přesné, ale bude mi chybět značný počet případů. Experimenty ukazují, že sweet spot je zde kolem 0,76, kde F-míra je 0,87.
Komentáře
- Poslední odstavec je zavádějící. Neexistuje koncept skóre “ dobrého nebo špatného “ bez kontextu toho, kde to aplikujeme. V určitých nastaveních je možná 60% současný stav techniky, v jiných nastaveních může být 95% nepřijatelně nízkých.
Odpovědět
F-míra je harmonický průměr vaší přesnosti a odvolání. Ve většině situací máte kompromis mezi přesností a odvoláním. Pokud optimalizujete svůj klasifikátor tak, aby jeden zvyšoval a druhý znevýhodňoval, harmonický průměr rychle klesá. Největší je však situace, kdy jsou přesnost i odvolání stejné.
Vzhledem k F-opatřením 0,4 a 0,8 pro vaše klasifikátory můžete očekávat, že tyto hodnoty dosahují maximálních hodnot při vážení přesnosti a odvolání.
Pro vizuální referenci se podívejte na tento obrázek z Wikipedie :
F-míra je H , A a B jsou odvolání a přesnost. Jeden můžete zvýšit, ale druhý se zmenší.
Komentáře
- Našel jsem křížek “ Vizualizace žebříků “ je o něco přímočařejší – pro mě je rovnost A = B intuitivní
Odpověď
S přesností na ose y a vyvoláním na ose x je sklon křivky úrovně $ F _ {\ beta} $ na ( 1, 1) je $ -1 / \ beta ^ 2 $.
Vzhledem k $$ P = \ frac {TP} {TP + FP} $$ a $$ R = \ frac {TP} { TP + FN} $$, nechť $ \ alpha $ je poměr ceny falešných negativů k falešným pozitivům. Pak je celková cena chyby úměrná $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Takže sklon křivky úrovně na (1, 1) je $ – \ alpha $. U dobrých modelů s použitím $ F _ {\ beta} $ tedy budete považovat falešné negativy $ \ beta ^ 2 $ za nákladnější než falešné pozitivy.
Odpovědět
Vzorec pro F-míru (F1, s beta = 1) je stejný jako vzorec poskytující ekvivalentní odpor složený ze dvou odporů umístěných paralelně ve fyzice (zapomínáme na faktor 2).
To by vám mohlo poskytnout možnou interpretaci a můžete uvažovat o elektronických nebo tepelných odporech. Tato analogie by definovala F-míru jako ekvivalentní odpor tvořený paralelně umístěnou citlivostí a přesností.
U F-opatření je maximum možné 1 a ztratíte odpor, jakmile jeden z nich také ztratí odpor (to znamená, že získáte hodnotu pod 1). Chcete-li lépe pochopit toto množství a jeho dynamiku, přemýšlejte o fyzikálním jevu. Například se zdá, že F-measure < = max (citlivost, přesnost).
Odpověď
Nejbližší intuitivní význam skóre f1 je vnímán jako průměr vyvolání a přesnost. Vyjasněte to za vás:
V úkolu klasifikace možná plánujete sestavit klasifikátor s vysokou přesností AND vzpomenout. Například klasifikátor, který řekne, zda je člověk čestný nebo ne.
Kvůli přesnosti můžete obvykle přesně říct, kolik čestných lidí tam v dané skupině. V tomto případě, když se staráte o vysokou přesnost, předpokládáte, že lháře můžete nesprávně klasifikovat jako čestného, ale ne často. Jinými slovy, zde se snažíte identifikovat lháře od čestného jako celé skupiny. .
Pro připomenutí vás však bude opravdu znepokojovat, pokud si myslíte, že je lhář upřímný. Pro vás to bude velká ztráta a velká chyba a nechcete to dělat znovu. Je také v pořádku, pokud jste někoho upřímného klasifikovali jako lháře, ale váš model by nikdy neměl (nebo většinou ne) tvrdit, že lhář je čestný. Jinými slovy, zde se zaměřujete na konkrétní třídu a snažíte se ne udělejte s tím chybu.
Nyní si vezměte případ, kdy chcete, aby váš model (1) přesně identifikoval čestnou osobu od lháře (přesnost) (2) identifikoval každou osobu z obou tříd (připomenout). Což znamená, že vyberete model, který bude dobře fungovat v obou metrikách.
Rozhodnutí o výběru modelu se poté pokusí vyhodnotit každý model na základě průměru těchto dvou metrik. F-skóre je nejlepší které to mohou popsat. Pojďme se podívat na vzorec:
$$ Recall: \ text {r} = \ frac {tp} {tp + fn} $$
$$ Přesnost: \ text {p} = \ frac {tp} {tp + fp} $$
$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$
Jak vidíte, čím vyšší je vybavenost AND přesnost, tím vyšší je F-skóre.
Odpověď
můžete napsat rovnici F-measure http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg jiným způsobem, například $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$, takže když $ β ^ 2 < 1 $, $ p $ by mělo být důležitější (nebo větší, získat vyšší $ F_ \ beta $).
Odpověď
S vědomím, že skóre F1 je harmonický průměr přesnosti a odvolání, níže je stručné informace o nich.
Řekl bych, že Recall je více o falešných negativech .ie, mít vyšší Recall znamená, že je méně FALSE NEGATIVES .
$$ \ text {Recall} = \ frac {tp} {tp + fn} $$
Tolik protože méně FN nebo Zero FN znamená, vaše predikce modelu je opravdu dobrá.
Zatímco vyšší přesnost znamená, že existuje méně FALSE POSITIVES $$ \ text {Precision} = \ frac {tp} {tp + fp} $$
Totéž zde „Méně nebo nula falešných pozitiv znamená, že predikce modelu je opravdu dobrá.