Je « suis un débutant essayant de me présenter à lestimation du maximum de vraisemblance (MLE) et je peux en saisir du matériel de manière adéquate, par exemple en recherchant des pics dans les fonctions de vraisemblance, en approchant de la limite de Cramer-Rao et en inversant la matrice dinformation de Fisher pour dériver la matrice de covariance et les estimations de la variance. Ironiquement, jai plus de mal à essayer de cerner précisément ce que les colonnes, lignes et entrées de la matrice de Fisher doivent représenter et définissant sa structure. Jai parcouru une ou deux douzaines de références au cours de la dernière année environ (plus une recherche sur CrossValidated) et je nai pas encore vu dexemples avec des valeurs réelles insérées dans les formules, bien que leur discussion sur dautres aspects de la matrice soit généralement approfondie.

Je vais essayer dexpliquer en détail pour éviter de superposer des sujets plus avancés sur dautres fils. La plupart de ma confusion semble provenir de ceci: lintégrale dans léquation matricielle a une dérivée du second ordre et un résultat de fonction de vraisemblance sur le diviseur et deux dérivées pour un seul paramètre sur le dividende, généralement avec deux indices comme i et j. (Voir cette entrée Wikipedia et celle-ci pour des exemples). Il semble toujours y avoir exactement deux indices, ce qui implique une matrice bidimensionnelle et me fait poser les questions connexes ci-dessous:

  1. Si je navais quun seul traitement et un paramètre, cela semble pour impliquer une matrice unidimensionnelle. Dans laffirmative, à quoi les indices matriciels i et j feraient-ils référence? Aurais-je besoin de faire un produit croisé de la dimension unique pour calculer le dividende dans léquation de Fisher Matrix?

  2. Comment les structures de colonnes et de lignes changeraient-elles si javais deux traitements et nécessaire pour estimer un seul paramètre? Cela impliquerait-il une matrice 2D?

  3. La situation inverse, où il y a un traitement et deux paramètres (disons échelle et forme), ferait-elle une différence pour la question n ° 2? Jimagine que ce ne serait pas pratique pour certaines distributions, si lun des paramètres était nécessaire pour dériver lautre dans la fonction de vraisemblance.

  4. Comment pourrais-je modifier la structure de la matrice et calculer les entrées si jai deux traitements ou plus plus deux paramètres ou plus? Cela semble impliquer une matrice 3D ou supérieure, auquel cas nous aurions besoin de plus dindices que juste i et j. Je nai pas encore vu de formules à cet effet dans les textes, articles de revues et didacticiels que jai parcourus jusquà présent. (Jai une liste de références si nécessaire). Cela se fait-il couramment dans les MLE du monde réel?

  5. Pouvons-nous étendre la matrice pour inclure des distributions séparées ou même des familles de distribution, ainsi que leurs paramètres? Comment cela affecterait-il la structure de la matrice?

  6. Les entrées de la matrice peuvent-elles consister en une combinaison de calculs sur la probabilité et les valeurs observées, si ces dernières sont disponibles? La formule Fisher Metric à https://en.wikipedia.org/wiki/Fisher_information_metric#Definition semble substituer les PDF aux probabilités. Cela constituerait-il un mélange dinformations observées et dinformations Fisher? Cette partie de la question peut mener à dautres sujets comme les différences subtiles entre les informations observées et les informations de Fisher qui sont probablement mieux traitées ailleurs. Je me demande simplement si les deux types d’entrées sont mélangés dans la même matrice. Je suppose qu’ils seraient presque toujours séparés.

Je me rends compte que les réponses que je recherche sont probablement évidentes; Je me trompe évidemment sur un concept sous-jacent simple. Une fois que jaurai dépassé cette pierre dachoppement, je devrais être en mesure de brancher rapidement des fonctions de probabilité dans les formules de Fisher, de renvoyer des matrices de covariance et de mentraîner à sélectionner des MLE; normalement, ce serait le plus difficile. partie, mais je suis coincé sur cette tâche de base. Une image vaut mille mots pour ainsi dire: les réponses aux questions ci-dessus seraient probablement instantanément claires, si je voyais des exemples avec des valeurs réelles branchées. Il ne resterait alors quà expliquer comment remplir la matrice à partir de la formule habituelle en utilisant seulement deux indices, ou alternativement, toute modification de la formule pour tenir compte de plusieurs traitements et paramètres. Des liens vers de tels exemples ou exercices seraient également utiles. Merci davance 🙂

Commentaires

  • +1 car vous avez vraiment essayé dy répondre vous-même mais comme un conseil amical: Allez-y et modifiez ceci en une question plus petite. Dans cette mesure, ne pouvez-vous pas évaluer numériquement une fonction de coût log-vraisemblable, obtenir son Hessian et voir par vous-même à quoi ressemblent les dérivées partielles? (Je peux le faire pour vous si vous le souhaitez.) Commencez par une variable continue dabord pas une variable discrète. (Je pense que vous confondez également ce que font les autres paramètres; ils ajoutent uniquement des colonnes à votre matrice de conception, pas des dimensions complètes.)
  • Merci pour le conseil – Je ‘ vais essayer de le modifier plusieurs fois ce soir et demain pour le réduire. Je ‘ aimerais voir le processus de dérivation de la matrice avec un paramètre contre deux contre plusieurs paramètres et traitements. Ce ‘ est le vrai point de friction pour moi; Je ne peux ‘ envisager comment gérer ces trois scénarios différemment, étant donné la version de la formule de Fisher avec deux indices. Merci 🙂
  • La façon la plus succincte de répondre à cette question serait des captures décran / liens de matrices Fisher réelles avec 1) un paramètre 2) deux paramètres & 3) multiple paramètres avec plusieurs traitements, à condition que les quantités dans chaque colonne / ligne soient clairement étiquetées. Ou un simple traitement  » avec plusieurs paramètres &, nous aurions X # de colonnes et Y # de lignes. Avec un paramètre, les valeurs iraient ici; X. etc  » Les formules / procédures pas à pas ne sont pas nécessaires, sauf si des modifications sont nécessaires pour prendre en charge des paramètres supplémentaires & traitements. Je peux & dois le faire moi-même; Jai juste besoin dexemples finis pour comparer ma structure.
  • Cela semble assez intimidant à répondre. Je pense quil pourrait être plus facile de donner un exemple & montrer où vous ‘ êtes coincé dans la dérivation ou confus sur linterprétation. Mais, pour commencer, que signifie ‘ un  » traitement « ? Une remarque? Un traitement expérimental?
  • @Scortchi La réponse ‘ est probablement exceptionnellement simple. Lutilisation dexactement 2 indices i & j dans la formule est le seul point où je ‘ m coincé dans la dérivation; Je peux ‘ comprendre comment cela peut accueillir des paramètres uniques ou plusieurs paramètres / traitements. Laffichage des matrices dinformation de Fisher réellement finies avec des colonnes clairement étiquetées & y répondrait; il ny en a simplement pas ‘ t dans la littérature. Je ‘ puis dis,  » Aha, cest pourquoi 2 sous-scripts peuvent gérer 3 paramètres ou juste 1, etc. serait placé dans la matrice.  » Il ‘ est juste la structure du produit fini I ‘ m après, rien de plus.

Réponse

Les informations de Fisher sont une matrice carrée symétrique avec un nombre de lignes / colonnes égal au nombre de paramètres que vous « réestimez. Rappelez-vous quil » sagit dune matrice de covariance des scores, & il « y a » un score pour chaque paramètre; ou lespérance de le négatif dun Hessian, avec un gradient pour chaque paramètre. Lorsque vous souhaitez considérer différents traitements expérimentaux, vous représentez leurs effets en ajoutant plus de paramètres au modèle, cest-à-dire plus de lignes / colonnes (plutôt que plus de dimensions — une matrice a deux dimensions par définition). Lorsque vous « réestimez g un seul paramètre, les informations de Fisher sont juste une matrice un par un (un scalaire) — la variance de, ou la valeur attendue du négatif de la deuxième dérivée de , le score.

Pour un modèle de régression linéaire simple de $ Y $ sur $ x $ avec $ n $ observations

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

où $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, il y a trois paramètres à estimer, linterception $ \ beta_0 $, la pente $ \ beta_1 $, & la variance derreur $ \ sigma ^ 2 $; les informations de Fisher sont

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrice} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrice} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrice} \ right] \ end {align} $ $

où $ \ ell (\ cdot) $ est la fonction de vraisemblance logarithmique des paramètres. (Notez que $ x $ pourrait être une variable factice indiquant un traitement particulier.)

Commentaires

  • Parfait – il ‘ est exactement ce dont javais besoin. Je ‘ jy réfléchirai du jour au lendemain et voir si jai besoin de clarifications – je peux ‘ t en repérer pour le moment – mais cette réponse répond déjà tous les scénarios variés que jai mentionnés ci-dessus, dun seul coup. Merci
  • La structure de lexemple de @Scortchi ‘ montre clairement comment la formule de Fisher que jai liée na besoin que de deux indices matriciels – i et j – pour accueillir nimporte quel nombre des paramètres et des valeurs. Chaque non-diagonale dans la matrice supérieure a exactement deux termes dans le dividende; au lieu dajouter ou de soustraire des termes de chaque dividende, chaque combinaison unique de paramètres ajoute ou soustrait des lignes et des colonnes de la matrice. La plupart des publications publiées ne font pas ‘ cette distinction importante clairement, ce qui a conduit à ma confusion.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *