Criei uma matriz de confusão e tentei obter valores de precisão e média geométrica (média g). Descobriu-se que a precisão está em torno de 0,83, enquanto a média g está em torno de 0,91. É possível ou cometi um erro ao calcular minhas medidas?

Resposta

Observação: Esta resposta foi editado seguindo um comentário útil de usεr11852

Para uma matriz de confusão 2×2, a precisão é normalmente definida como:

$$ \ text {Precisão} = \ frac {TP + TN} {TP + FP + FN + TN} $$

Enquanto a média g é definida como (consulte, por exemplo, Espindola & Ebecken 2005)

$$ g_ {PR} = \ sqrt {\ text {Precision} \ times \ text {Recall}} $$

ou

$$ g_ {SS} = \ sqrt {\ text {Sensibilidade} \ times \ text {Especificidade}} $$

Onde $ \ text {Precision} = \ frac {TP} {TP + FP} $ , $ \ text {Recall} = \ text {Sensibilidade} = \ frac {TP} { TP + FN} $ e $ \ text {Especificidade} = \ frac {TN} {TN + FP} $ .

Estes t As duas definições fornecem resultados diferentes, por isso é importante deixar claro qual está sendo usado. Observe que $ g_ {PR} $ e $ g_ {SS} $ são minhas notações para esta resposta e notação não comumente usada.

$$ \ begin {align} g_ {PR} & = \ frac {TP } {\ sqrt {(TP + FP) (TP + FN)}} \\ g_ {SS} & = \ frac {\ sqrt {TP \ vezes TN}} {\ sqrt {(TP + FN) (TN + FP)}} \ end {align} $$

Observe que TN apresenta nas fórmulas de precisão e $ g_ {SS} $ mas não para $ g_ {PR} $ .

Precisão é uma má medida, porque um teste / modelo pode ser muito ruim, mas parece ter uma boa precisão se houver muitos TNs e por que não faz sentido em algumas situações, por exemplo, recuperação de informação (onde TNs não têm interesse e são até difíceis de definir).

Aqui estão alguns exemplos em que a precisão é inferior a $ g_ {PR} $ e / ou $ g_ {SS} $ :

Então, em resposta à sua pergunta, é inteiramente plausível que a precisão seja menor do que a média g, mas vale a pena ter certeza de qual média g está sendo usada.

R. P. Espindola & N. F. F. Ebecken. (2005) Sobre a extensão das métricas de medida F e média G para problemas de várias classes. Transações WIT em Tecnologias de Informação e Comunicação. Vol. 35. pp. 25-34.

Comentários

  • Isso é potencialmente enganoso porque g- a média é muitas vezes definida em termos de recall (sensibilidade) e especificidade, por exemplo. Kubat & Matwin (1997) ICML. Você pode apontar para um artigo publicado que define o g-mean em termos de Precisão: Recall?
  • Obrigado @ usεr11852 Eu atualizei a resposta para refletir as duas definições alternativas.
  • Legal . Obrigado. (+1) Independentemente da sua resposta, suspeitei que E & E surgiria … Espindola & Ebecken (2005) cita Kubat, Hulte & Matwin (1998) sobre o $ g $ -médio usando Precision-Recall. Kubat et al. (1998) fazem uma definição suave de $ g_ {PR} $ e citam Lewis & Gale (1994) se L & W ( 1994) não mencionam a média geométrica. Em geral, acho que o uso de $ g_ {PR} $ é muito duvidoso. No mínimo, a única referência formal que vi sendo mencionada ao examinar $ g_ {PR} $ é " Recuperação de informações " por van Rijsbergen onde o objetivo é não usá-lo e, em vez disso, usar a pontuação $ F $.
  • Obrigado @ usεr11852 pelo contexto excelente. Faz ' faz um tempo desde que trabalhei nesta área (2011) e geralmente usaria apenas a pontuação F.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *