Eu gostaria de saber como interpretar uma diferença de valores de medida f. Eu sei que a medida f é uma média balanceada entre precisão e recall, mas estou perguntando sobre o significado prático de uma diferença nas medidas F.
Por exemplo, se um classificador C1 tem uma precisão de 0,4 e outro classificador C2 uma precisão de 0,8, então podemos dizer que C2 classificou corretamente o dobro dos exemplos de teste em comparação com C1. No entanto, se um classificador C1 tem uma medida F de 0,4 para uma determinada classe e outro classificador C2 uma medida F de 0,8, o que podemos afirmar sobre a diferença no desempenho dos 2 classificadores? Podemos dizer que C2 classificou X mais instâncias corretamente do que C1?
Comentários
- Eu ‘ Não tenho certeza se pode dizer muito, já que a medida F é uma função de precisão e recuperação: en.wikipedia.org/wiki/F1_score . No entanto, você pode fazer as contas e manter uma constante (de precisão ou recuperação) e dizer algo sobre a outra.
Resposta
Não consigo pensar em um significado intuitivo para a medida F, porque é apenas uma métrica combinada. O que é mais intuitivo do que a medida F, é claro, é precisão e memória.
Mas, usando dois valores, muitas vezes não podemos determinar se um algoritmo é superior a outro. Por exemplo, se um algoritmo tem maior precisão, mas menor recall do que outro, como você pode dizer qual algoritmo é melhor?
Se você tem um objetivo específico em sua mente, como “Precisão é o rei. Eu não” t me importo muito com a lembrança “, então não há problema. Maior precisão é melhor. Mas se você não tem um objetivo tão forte, você vai querer uma métrica combinada. Essa é a medida F. Ao usá-lo, você comparará parte da precisão e parte da recuperação.
A curva ROC é freqüentemente desenhada indicando a medida F. Você pode achar este artigo interessante, pois contém explicações sobre várias medidas, incluindo curvas ROC: http://binf.gmu.edu/mmasso/ROC101.pdf
Resposta
A importância da pontuação F1 é diferente com base no cenário. Vamos supor que a variável de destino é um rótulo binário.
- Classe balanceada: nesta situação, a pontuação F1 pode ser efetivamente ignorada, a taxa de classificação incorreta é fundamental.
- Classe desequilibrada, mas ambas as classes são importantes: se a distribuição de classe for altamente distorcida (como 80:20 ou 90:10), um classificador pode obter uma taxa baixa de classificação incorreta simplesmente escolhendo a classe majoritária. Em tal situação, eu escolheria o classificador que obtém altas pontuações de F1 em ambas as classes, bem como baixa taxa de classificação incorreta. Um classificador com pontuações F1 baixas deve ser esquecido.
- Classe desequilibrada, mas uma classe é mais importante que a outra. Por ex. na detecção de fraudes, é mais importante rotular corretamente uma instância como fraudulenta, em vez de rotular a não fraudulenta. Nesse caso, eu escolheria o classificador que tem uma boa pontuação de F1 apenas na classe importante . Lembre-se de que a pontuação F1 está disponível por classe.
Resposta
A medida F tem um significado intuitivo. Ele informa quão preciso é o seu classificador (quantas instâncias ele classifica corretamente), bem como quão robusto ele é (ele não perde um número significativo de instâncias).
Com alta precisão, mas baixo recall, seu classificador é extremamente preciso, mas perde um número significativo de instâncias que são difíceis de classificar. Isso não é muito útil.
Dê uma olhada neste histograma. Ignore sua finalidade original.
Rumo à direita, você obtém alta precisão, mas baixa recuperação. Se eu selecionar apenas instâncias com uma pontuação acima de 0,9, minhas instâncias classificadas serão extremamente precisas, no entanto, terei perdido um número significativo de instâncias. Experimentos indicam que o ponto ideal aqui é cerca de 0,76, onde a medida F é 0,87.
Comentários
- O último parágrafo é enganoso. Não existe o conceito de uma pontuação ” boa ou má ” sem o contexto de onde estamos aplicando isso. Em certos ambientes, talvez 60% seja o estado da arte, em outros, 95% pode ser inaceitavelmente baixo.
Resposta
A medida F é a média harmônica de sua precisão e recuperação. Na maioria das situações, você tem um compromisso entre precisão e recall. Se você otimizar seu classificador para aumentar um e desfavorecer o outro, a média harmônica diminui rapidamente. No entanto, é maior quando a precisão e a recuperação são iguais.
Dadas as medidas F de 0,4 e 0,8 para seus classificadores, você pode esperar que esses sejam os valores máximos alcançados ao pesar a precisão em relação à recuperação.
Para referência visual, dê uma olhada nesta figura da Wikipedia :
A medida F é H , A e B são recall e precisão. Você pode aumentar um, mas o outro diminui.
Comentários
- Eu encontrei o ” Cruzado Ladders ” visualização para ser um pouco mais direta – para mim, torna a igualdade de A = B resultando no maior H mais intuitiva
Resposta
Com precisão no eixo y e rechamada no eixo x, a inclinação da curva de nível $ F _ {\ beta} $ em ( 1, 1) é $ -1 / \ beta ^ 2 $.
Dado $$ P = \ frac {TP} {TP + FP} $$ e $$ R = \ frac {TP} { TP + FN} $$, seja $ \ alpha $ a razão entre o custo de falsos negativos e falsos positivos. Então o custo total do erro é proporcional a $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Portanto, a inclinação da curva de nível em (1, 1) é $ – \ alpha $. Portanto, para bons modelos, o uso de $ F _ {\ beta} $ implica que você considera os falsos negativos $ \ beta ^ 2 $ vezes mais caros do que os falsos positivos.
Resposta
A fórmula para medida F (F1, com beta = 1) é a mesma que a fórmula que dá a resistência equivalente composta por duas resistências colocadas em paralelo na física (esquecendo o fator 2).
Isso poderia lhe dar uma possível interpretação e você pode pensar em resistências eletrônicas ou térmicas. Essa analogia definiria a medida F como a resistência equivalente formada pela sensibilidade e precisão colocadas em paralelo.
Para F-measure, o máximo possível é 1, e você perde a resistência assim que um entre os dois também perde a resistência (isto é, obtenha um valor abaixo de 1). Se você quer entender melhor essa quantidade e sua dinâmica, pense no fenômeno físico. Por exemplo, parece que a medida F < = max (sensibilidade, precisão).
Resposta
O significado intuitivo mais próximo da pontuação f1 está sendo percebido como a média do recall e da precisão. Vamos deixar claro para você:
Em uma tarefa de classificação, você pode estar planejando construir um classificador com alta precisão E relembrar. Por exemplo, um classificador que diz se uma pessoa é honesta ou não.
Para precisão, geralmente você pode dizer com precisão quantos são honestos pessoas em um determinado grupo. Nesse caso, ao se preocupar com alta precisão, você presume que pode classificar erroneamente uma pessoa mentirosa como honesta, mas não com frequência. Em outras palavras, aqui você está tentando identificar o mentiroso do honesto como um grupo inteiro .
No entanto, para se lembrar, você ficará realmente preocupado se achar que é uma pessoa mentirosa, para ser honesto. Para você, isso será uma grande perda e um grande erro, e você não quer fazer isso de novo. Além disso, está tudo bem se você classificou alguém honesto como mentiroso, mas seu modelo nunca deve (ou não deve) alegar que um mentiroso é honesto. Em outras palavras, aqui você está se concentrando em uma classe específica e está tentando não cometa um erro.
Agora, vamos pegar o caso em que você deseja que seu modelo (1) identifique com precisão o honesto de um mentiroso (precisão) (2) identifique cada pessoa de ambas as classes (lembre-se). O que significa que você selecionará o modelo que terá um bom desempenho em ambas as métricas.
A decisão de seleção de seu modelo tentará avaliar cada modelo com base na média das duas métricas. F-Score é o melhor que pode descrever isso. Vamos dar uma olhada na fórmula:
$$ Lembre-se: \ text {r} = \ frac {tp} {tp + fn} $$
$$ Precisão: \ text {p} = \ frac {tp} {tp + fp} $$
$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$
Como você pode ver, quanto maior a lembrança de E precisão, quanto maior o F-score.
Resposta
você pode escrever a equação de medida F http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg de outra forma, como $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$ assim, quando $ β ^ 2 < 1 $, $ p $ deve ser mais importante (ou, maior, para obter um superior $ F_ \ beta $).
Resposta
Sabendo que a pontuação F1 é uma média harmônica de precisão e recall, abaixo está um pouco breve sobre eles.
Eu diria que o recall é mais sobre falsos negativos. Ou seja, ter um recall maior significa que há menos NEGATIVOS FALSOS .
$$ \ text {Recall} = \ frac {tp} {tp + fn} $$
Tanto quanto menos FN ou Zero FN significa, a previsão do seu modelo é realmente boa.
Considerando que ter médias de precisão mais altas, há menos POSITIVOS FALSOS $$ \ text {Precision} = \ frac {tp} {tp + fp} $$
O mesmo aqui , Menos ou Zero falsos positivos significa que a previsão do modelo é realmente boa.