Supposons que nous ayons une variable aléatoire $ X \ sim f (x | \ theta) $ . Si $ \ theta_0 $ était le vrai paramètre, la fonction de vraisemblance devrait être maximisée et la dérivée égale à zéro. Cest le principe de base de lestimateur du maximum de vraisemblance.
Daprès ce que je comprends, les informations de Fisher sont définies comme
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Ainsi, si $ \ theta_0 $ est le vrai paramètre, $ I (\ theta) = 0 $ . Mais si ce $ \ theta_0 $ nest pas le vrai paramètre, alors nous aurons une plus grande quantité dinformations Fisher.
mes questions
- Les informations de Fisher mesurent-elles lerreur » « dun MLE donné? En d autres termes, l existence d une information Fisher positive ne signifie – t – elle pas que mon MLE ne peut pas être idéal?
- En quoi cette définition de «linformation» diffère-t-elle de celle utilisée par Shannon? Pourquoi appelons-nous cela information?
Commentaires
- Pourquoi lécrivez-vous $ E_ \ theta $? Lespérance est supérieure aux valeurs de $ X $ distribuées comme si elles provenaient de votre distribution avec le paramètre $ \ theta $.
- De plus, $ I (\ theta) $ nest pas nul au vrai paramètre.
- Le E (S) est nul (cest-à-dire: espérance de la fonction de score), mais comme lécrit Neil G – les informations du pêcheur (V (S)) ne sont pas (généralement) nulles.
Réponse
Essayer de compléter les autres réponses … Quel genre dinformation est linformation de Fisher? Commencez par la fonction loglikelihood $$ \ ell (\ theta) = \ log f (x; \ theta) $$ en fonction de $ \ theta $ pour $ \ theta \ in \ Theta $, lespace des paramètres. En supposant certaines conditions de régularité dont nous ne discutons pas ici, nous avons $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (nous écrirons les dérivées par rapport au paramètre sous forme de points comme ici). La variance est linformation de Fisher $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ la dernière formule montrant quil sagit de la courbure (négative) de la fonction log-vraisemblance. On trouve souvent lestimateur du maximum de vraisemblance (mle) de $ \ theta $ en résolvant léquation de vraisemblance $ \ dot {\ ell} (\ theta) = 0 $ lorsque les informations de Fisher sont la variance du score $ \ dot {\ ell } (\ theta) $ est grand, alors la solution de cette équation sera très sensible aux données, donnant un espoir de haute précision du mle. Cela est confirmé au moins asymptotiquement, la variance asymptotique du mle étant linverse de linformation de Fisher.
Comment pouvons-nous interpréter cela? $ \ ell (\ theta) $ est linformation de vraisemblance sur le paramètre $ \ theta $ de léchantillon. Cela ne peut vraiment être interprété que dans un sens relatif, comme lorsque nous lutilisons pour comparer les plausibilités de deux valeurs de paramètres possibles distinctes via le test du rapport de vraisemblance $ \ ell (\ theta_0) – \ ell (\ theta_1) $. Le taux de changement de la log-vraisemblance est la fonction de score $ \ dot {\ ell} (\ theta) $ nous indique à quelle vitesse la vraisemblance change, et sa variance $ I (\ theta) $ combien cela varie dun échantillon à lautre, à une valeur de paramètre donnée, disons $ \ theta_0 $. Léquation (qui est vraiment surprenante!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ nous dit quil y a une relation (égalité) entre la variabilité de linformation ( vraisemblance) pour une valeur de paramètre donnée, $ \ theta_0 $, et la courbure de la fonction de vraisemblance pour cette valeur de paramètre. Il sagit dune relation surprenante entre la variabilité (variance) de la statistique $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ et le changement de similitude attendu lorsque nous faisons varier le paramètre $ \ theta $ dans un intervalle autour de $ \ theta_0 $ (pour les mêmes données). Cest vraiment à la fois étrange, surprenant et puissant!
Alors, quelle est la fonction de vraisemblance? Nous considérons généralement le modèle statistique $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ comme une famille de distributions de probabilité pour les données $ x $, indexées par le paramètre $ \ theta $ un élément dans lespace de paramètres $ \ Theta $. Nous pensons que ce modèle est vrai sil existe une valeur $ \ theta_0 \ dans \ Theta $ telle que les données $ x $ aient en fait la distribution de probabilité $ f (x; \ theta_0) $. Nous obtenons donc un modèle statistique en intégrant la vraie distribution de probabilité générant des données $ f (x; \ theta_0) $ dans une famille de distributions de probabilité. Mais, il est clair quune telle imbrication peut être réalisée de nombreuses manières différentes, et chacune de ces imbrications sera un «vrai» modèle, et elles donneront des fonctions de vraisemblance différentes. Et, sans une telle imbrication, il ny a pas de fonction de vraisemblance. Il semble que nous ayons vraiment besoin daide, de principes pour choisir judicieusement une imbrication!
Alors, quest-ce que cela signifie? Cela signifie que le choix de la fonction de vraisemblance nous indique comment nous nous attendrions à ce que les données changent, si la vérité changeait un peu. Mais cela ne peut pas vraiment être vérifié par les données, car les données ne donnent que des informations sur la vraie fonction de modèle $ f (x; \ theta_0) $ qui a réellement généré les données, et pas rien sur tous les autres éléments du modèle choisi. De cette façon, nous voyons que le choix de la fonction de vraisemblance est similaire au choix dun a priori dans lanalyse bayésienne, il injecte des informations non données dans lanalyse. Regardons cela dans un exemple simple (quelque peu artificiel), et regardons leffet de limbrication de $ f (x; \ theta_0) $ dans un modèle de différentes manières.
Supposons que $ X_1, \ dotsc, X_n $ sont iid comme $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Cest donc la vraie distribution génératrice de données. Maintenant, intégrons ceci dans un modèle de deux manières différentes, le modèle A et le modèle B. $$ A \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ vous pouvez vérifier que cela coïncide pour $ \ mu = 10 $.
Les fonctions loglikelihood deviennent $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
Les fonctions de partition : (dérivés de vraisemblance logicielle): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ et les courbures $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ donc, les informations de Fisher dépendent vraiment de limbrication. Maintenant, nous calculons les informations de Fisher à la valeur vraie $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ donc les informations de Fisher sur le paramètre sont un peu plus grandes dans le modèle B.
Ceci illustre que, dans Dans un sens, les informations de Fisher nous indiquent à quelle vitesse les informations des données sur le paramètre auraient changé si le paramètre directeur avait changé de la manière postulée par limbrication dans une famille de modèles . Lexplication des informations plus élevées dans le modèle B est que notre famille de modèles B postule que si lespérance avait augmenté, alors la variance aurait également augmenté . Pour que, sous le modèle B, la variance de léchantillon contienne également des informations sur $ \ mu $, ce quelle ne fera pas sous le modèle A.
De plus, cet exemple illustre que nous avons vraiment besoin dune théorie pour aider comment construire des familles modèles.
Commentaires
- excellente explication. Pourquoi dites-vous $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? il ‘ est une fonction de $ \ theta $ – nest ‘ t-il 0 que lorsquil est évalué au vrai paramètre $ \ theta_0 $?
- Oui, ce que vous dites est vrai, @idadanny Il est nul lorsquil est évalué à la vraie valeur du paramètre.
- Merci encore @kjetil – donc juste une autre question: est la relation surprenante entre la variance du score et la courbure de la vraisemblance vraie pour chaque $ \ theta $? ou seulement au voisinage du vrai paramètre $ \ theta_0 $?
- Encore une fois, cette relation est vraie pour la vraie valeur du paramètre. Mais pour que cela soit dune grande aide, il doit y avoir continuité, de sorte que ce soit approximativement vrai dans certains quartiers, puisque nous lutilisons à la valeur estimée $ \ hat {\ theta} $, pas seulement au vrai (inconnu) valeur.
- donc, la relation est vraie pour le vrai paramètre $ \ theta_0 $, elle est presque valable pour $ \ theta_ {mle} $ puisque nous supposons quelle ‘ s dans le voisinage de $ \ theta_0 $, mais pour un $ \ theta_1 $ général cela ne tient pas, non?
Réponse
Pensons en termes de fonction de log-vraisemblance négative $ \ ell $. Le score négatif est son gradient par rapport à la valeur du paramètre. Au paramètre vrai, le score est égal à zéro. Sinon, il donne la direction vers le minimum $ \ ell $ (ou dans le cas de $ \ ell $ non convexe, un point de selle ou local minimum ou maximum).
Linformation de Fisher mesure la courbure de $ \ ell $ autour de $ \ theta $ si les données suivent $ \ theta $. le paramètre affecterait votre log-vraisemblance.
Considérez que vous aviez un grand modèle avec des millions de paramètres. Et vous aviez une petite clé USB sur laquelle stocker votre modèle. Comment devez-vous prioriser le nombre de bits de chaque paramètre à stocker? La bonne réponse est dallouer des bits en fonction des informations de Fisher (Rissanen a écrit à ce sujet). Si les informations de Fisher dun paramètre sont nulles, ce paramètre na pas dimportance.
Nous lappelons « information » parce que les informations de Fisher mesurent ce que ce paramètre nous dit sur les données.
Voici une façon familière dy penser: Supposons que le Les paramètres conduisent une voiture et les données se trouvent sur la banquette arrière pour corriger le conducteur. Lennui des données est linformation de Fisher. Si les données permettent au pilote de conduire, les informations de Fisher sont nulles; si les données font constamment des corrections, elles sont volumineuses. En ce sens, les informations de Fisher sont la quantité d’informations allant des données aux paramètres.
Considérez ce qui se passe si vous faites plus le volant Cela équivaut à une reparamétrisation. Dans ce cas, les données ne veulent pas être si bruyantes par peur du survirage de la voiture. Ce type de reparamétrisation diminue les informations de Fisher.
Réponse
Complémentaire à la belle réponse de @NeilG (+1) et à répondez à vos questions spécifiques:
- Je dirais quil compte la « précision » plutôt que l « erreur » elle-même.
Rappelez-vous que le Hessian du journal -la probabilité évaluée aux estimations ML est linformation de Fisher observée. Les erreurs types estimées sont les racines carrées des éléments diagonaux de linverse de la matrice dinformation de Fisher observée. Les informations de Fisher sont issues de cette information de la trace de la matrice dinformation de Fisher. Étant donné que la matrice dinformation de Fisher $ I $ est une matrice matricielle hermitienne positive-semi-définie, alors les entrées diagonales $ I_ {j, j} $ de celle-ci sont réelles et non négatives; en conséquence directe, elle trace $ tr (I) $ doit être positive. Cela signifie que vous ne pouvez avoir que des estimateurs « non idéaux » selon votre assertion. Donc non, une information de Fisher positive nest pas liée à quel est lidéal de votre MLE.
- La définition diffère dans la façon dont nous interprétons la notion dinformation dans les deux cas. Cela dit, les deux mesures sont étroitement liées.
Linverse de linformation de Fisher est la variance minimale dun estimateur sans biais ( Cramér– Rao lié ). En ce sens, la matrice dinformations indique la quantité dinformations sur les coefficients estimés contenues dans les données. Au contraire, lentropie de Shannon a été tirée de la thermodynamique. Il relie le contenu informationnel dune valeur particulière dune variable comme $ –p · log_2 (p) $ où $ p $ est la probabilité que la variable prenne la valeur. Les deux sont des mesures de la façon dont une variable est «informative». Dans le premier cas, vous jugez cette information en termes de précision tandis que dans le second cas en termes de désordre; côtés différents, même pièce! : D
Pour récapituler: Linverse de la matrice dinformation de Fisher $ I $ évaluée aux valeurs de lestimateur ML est la matrice de covariance asymptotique ou approchée. Comme les valeurs de cet estimateur ML se trouvent graphiquement dans un minimum local, les informations de Fisher indiquent la profondeur de ce minimum et la marge de manœuvre dont vous disposez autour de lui. Jai trouvé cet article de Lutwak et al. sur Extensions des informations Fisher et linégalité de Stam , une lecture informative à ce sujet. Les articles Wikipédia sur la Fisher Information Metric et sur la divergence Jensen – Shannon sont également utiles pour commencer.