Je voudrais savoir comment interpréter une différence de valeurs de f-mesure. Je sais que la mesure f est une moyenne équilibrée entre la précision et le rappel, mais je demande la signification pratique dune différence de mesure F.

Par exemple, si un classificateur C1 a une précision de 0,4 et un autre classificateur C2 dune précision de 0,8, alors on peut dire que C2 a correctement classé le double des exemples de test par rapport à C1. Cependant, si un classificateur C1 a une mesure F de 0,4 pour une certaine classe et un autre classificateur C2 une mesure F de 0,8, que pouvons-nous dire sur la différence de performance des 2 classificateurs? Pouvons-nous dire que C2 a classé X plus dinstances correctement que C1?

Commentaires

  • Je ‘ Je ne suis pas sûr que vous puissiez en dire beaucoup puisque la mesure F est une fonction de précision et de rappel: en.wikipedia.org/wiki/F1_score . Vous pouvez cependant faire le calcul et maintenir lune des constantes (précision ou rappel) et dire quelque chose sur lautre.

Réponse

Je ne peux pas penser à une signification intuitive de la mesure F, car ce nest quune métrique combinée. Ce qui est plus intuitif que F-mesure, bien sûr, cest la précision et le rappel.

Mais en utilisant deux valeurs, nous ne pouvons souvent pas déterminer si un algorithme est supérieur à un autre. Par exemple, si un algorithme a une précision plus élevée mais un rappel plus faible que lautre, comment pouvez-vous savoir quel algorithme est le meilleur?

Si vous avez un objectif spécifique en tête comme « La précision est le roi. Je ne le fais pas » t se soucient beaucoup du rappel », alors il ny a pas de problème. Une plus grande précision est meilleure. Mais si vous navez pas un objectif aussi fort, vous voudrez une métrique combinée. Cest la mesure F. En lutilisant, vous comparerez une partie de la précision et une partie du rappel.

La courbe ROC est souvent dessinée en indiquant la mesure F. Cet article peut vous intéresser car il contient des explications sur plusieurs mesures, y compris les courbes ROC: http://binf.gmu.edu/mmasso/ROC101.pdf

Réponse

Limportance du score F1 est différente selon le scénario. Supposons que la variable cible est une étiquette binaire.

  • Classe équilibrée: dans cette situation, le score F1 peut effectivement être ignoré, le taux de mauvaise classification est essentiel.
  • Classe déséquilibrée, mais les deux classes sont importantes: si la distribution des classes est fortement biaisée (comme 80:20 ou 90:10), alors un classificateur peut obtenir un faible taux de mauvaise classification simplement en choisissant la classe majoritaire. Dans une telle situation, je choisirais le classificateur qui obtient des scores F1 élevés dans les deux classes, ainsi quun faible taux de mauvaise classification. Un classificateur qui obtient de faibles scores F1 doit être négligé.
  • Classe déséquilibrée, mais une classe est plus importante que lautre. Par exemple dans la détection des fraudes, il est plus important détiqueter correctement une instance comme frauduleuse, plutôt que détiqueter linstance non frauduleuse. Dans ce cas, je choisirais le classificateur qui a un bon score F1 uniquement sur la classe importante . Rappelez-vous que le score F1 est disponible par classe.

Réponse

F-mesure a une signification intuitive. Il vous indique la précision de votre classificateur (combien dinstances il classe correctement), ainsi que sa robustesse (il ne manque pas un nombre significatif dinstances).

Avec une précision élevée mais un faible rappel, votre classificateur est extrêmement précis, mais il manque un nombre important dinstances difficiles à classer. Ce nest pas très utile.

Jetez un œil à cet histogramme. entrez la description de limage ici Ignorez son objectif dorigine.

Vers la droite, vous obtenez haute précision, mais faible rappel. Si je ne sélectionne que des instances avec un score supérieur à 0,9, mes instances classifiées seront extrêmement précises, cependant jaurai manqué un nombre important dinstances. Les expériences indiquent que le sweet spot ici est denviron 0,76, où la mesure F est de 0,87.

Commentaires

  • Le dernier paragraphe est trompeur. Il ny a pas de concept de score  » bon ou mauvais  » sans contexte où nous lappliquons. Dans certains contextes, peut-être 60% est létat de lart, dans dautres, 95% peuvent être trop bas.

Réponse

La mesure F est la moyenne harmonique de votre précision et de votre rappel. Dans la plupart des situations, vous avez un compromis entre précision et rappel. Si vous optimisez votre classificateur pour augmenter lun et défavoriser lautre, la moyenne harmonique diminue rapidement. Cest le plus grand cependant, lorsque la précision et le rappel sont égaux.

Étant donné les mesures F de 0,4 et 0,8 pour vos classificateurs, vous pouvez vous attendre à ce que celles-ci correspondent aux valeurs maximales obtenues lors de la pondération de la précision par rapport au rappel.

Pour une référence visuelle, jetez un œil à cette figure de Wikipedia :

entrez la description de limage ici

La mesure F est H , A et B sont rappel et précision. Vous pouvez augmenter lun, mais lautre diminue.

Commentaires

  • Jai trouvé le  » Croisé La visualisation des échelles  » pour être un peu plus simple – pour moi, cela rend légalité de A = B résultant du plus grand H plus intuitive

Réponse

Avec précision sur laxe y et rappel sur laxe x, la pente de la courbe de niveau $ F _ {\ beta} $ à ( 1, 1) est $ -1 / \ beta ^ 2 $.

Étant donné $$ P = \ frac {TP} {TP + FP} $$ et $$ R = \ frac {TP} { TP + FN} $$, soit $ \ alpha $ le rapport entre le coût des faux négatifs et des faux positifs. Alors le coût total de lerreur est proportionnel à $$ \ alpha \ frac {1-R} {R} + \ frac {1-P} {P}. $$ Ainsi la pente de la courbe de niveau en (1, 1) est $ – \ alpha $. Par conséquent, pour les bons modèles utilisant le $ F _ {\ beta} $ implique que vous considérez les faux négatifs $ \ beta ^ 2 $ fois plus chers que les faux positifs.

Réponse

La formule de F-mesure (F1, avec beta = 1) est la même que la formule donnant la résistance équivalente composée de deux résistances placées en parallèle en physique (en oubliant le facteur 2).

Cela pourrait vous donner une interprétation possible, et vous pouvez penser à la fois aux résistances électroniques ou thermiques. Cette analogie définirait la mesure F comme la résistance équivalente formée par la sensibilité et la précision placées en parallèle.

Pour la mesure F, le maximum possible est de 1, et vous perdez de la résistance dès que lun des deux perd également de la résistance (cest-à-dire aussi, obtenez une valeur inférieure à 1). Si vous voulez mieux comprendre cette grandeur et sa dynamique, pensez au phénomène physique. Par exemple, il apparaît que la mesure F < = max (sensibilité, précision).

Réponse

La signification intuitive la plus proche du score f1 est perçue comme la moyenne du rappel et de la précision. Soyons clairs pour vous:

Dans une tâche de classification, vous envisagez peut-être de créer un classificateur de haute précision AND rappel. Par exemple, un classificateur qui indique si une personne est honnête ou non.

Pour plus de précision, vous pouvez généralement dire avec précision combien dhonnêtes dans un groupe donné. Dans ce cas, lorsque vous vous souciez de la haute précision, vous supposez que vous pouvez mal classer une personne menteuse comme honnête, mais pas souvent. En dautres termes, ici vous essayez didentifier le menteur dhonnête dans son ensemble .

Cependant, pour rappel, vous serez vraiment inquiet si vous pensez quune personne menteuse pour être honnête. Pour vous, ce sera une grande perte et une grosse erreur et vous ne voulez pas le faire de nouveau. De plus, ce nest pas grave si vous classiez quelquun dhonnête comme menteur, mais votre modèle ne devrait jamais (ou surtout ne pas) prétendre quun menteur est honnête. En dautres termes, vous vous concentrez ici sur une classe spécifique et vous essayez de ne pas le faire. faites une erreur à ce sujet.

Maintenant, prenons le cas où vous voulez que votre modèle (1) identifie précisément lhonnête dun menteur (précision) (2) identifie chaque personne des deux classes (rappel). Ce qui signifie que vous sélectionnerez le modèle qui fonctionnera bien sur les deux métriques.

Votre décision de sélection du modèle essaiera ensuite dévaluer chaque modèle en fonction de la moyenne des deux métriques. Le score F est le meilleur. qui peut décrire ceci. Regardons la formule:

$$ Recall: \ text {r} = \ frac {tp} {tp + fn} $$

$$ Précision: \ text {p} = \ frac {tp} {tp + fp} $$

$$ Fscore: \ text {f1} = \ frac {2} {\ frac {1} {r} + \ frac {1} {p }} $$

Comme vous le voyez, plus le rappel est élevé AND précision, plus le score F est élevé.

Réponse

vous pouvez écrire léquation de mesure F http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg dune autre manière, comme $$ F_ \ beta = 1 / ((\ beta ^ 2 / (\ beta ^ 2 + 1)) 1 / r + (1 / (\ beta ^ 2 + 1)) 1 / p) $$ donc, quand $ β ^ 2 < 1 $, $ p $ devrait être plus important (ou, plus grand, pour obtenir un supérieur $ F_ \ beta $).

Réponse

Sachant que le score F1 est un moyen harmonique de précision et de rappel, voici un petit bref à leur sujet.

Je dirais que le rappel concerne davantage les faux négatifs .ie, Avoir un rappel plus élevé signifie quil y a moins de FAUX NÉGATIFS .

$$ \ text {Recall} = \ frac {tp} {tp + fn} $$

Autant comme moins FN ou Zéro FN signifie, votre prédiction de modèle est vraiment bonne.

Alors que le fait davoir une précision plus élevée signifie quil y a moins de FAUX POSITIFS $$ \ text {Precision} = \ frac {tp} {tp + fp} $$

Idem ici , Moins ou zéro faux positifs signifie que la prédiction du modèle est vraiment bonne.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *