Pregunta básica sobre la definición de las dimensiones y entradas de la matriz de información de Fisher

Soy un principiante que intento introducirme en la estimación de máxima verosimilitud (MLE) y puedo comprender algunos del material adecuadamente, como buscar picos en funciones de verosimilitud, acercarme al límite de Cramer-Rao e invertir la matriz de información de Fisher para derivar la matriz de covarianza y las estimaciones de varianza. Irónicamente, tengo más problemas para tratar de precisar exactamente lo que las columnas, filas y entradas de la matriz de Fisher deben representar y definir su estructura. He examinado una o dos docenas de referencias durante el año pasado (más una búsqueda en CrossValidated) y aún no he visto ningún ejemplo con valores reales en las fórmulas, aunque su discusión de otros aspectos de la matriz suele ser exhaustiva.

Intentaré explicar en detalle para evitar superponer temas más avanzados en otros hilos. La mayor parte de mi confusión parece provenir de esto: la integral en la ecuación matricial tiene una derivada de segundo orden y el resultado de la función de verosimilitud en el divisor y dos derivadas para un solo parámetro en el dividendo, generalmente con dos subíndices como i y j. (Consulte esta entrada de Wikipedia y esta para ver ejemplos). Siempre parece haber exactamente dos subíndices, lo que implica una matriz bidimensional y me hace hacer las preguntas relacionadas a continuación:

Si tuviera solo un tratamiento y un parámetro, eso parece para implicar una matriz unidimensional. Si es así, ¿a qué se referirían los subíndices i y j de la matriz? ¿Necesitaría hacer un producto cruzado de la dimensión única a sí mismo para derivar el dividendo en la ecuación de la matriz de Fisher?
¿Cómo cambiarían las estructuras de columnas y filas si tuviera dos tratamientos y necesita estimar un solo parámetro? ¿Implicaría esto una matriz 2D?
¿La situación inversa, en la que hay un tratamiento y dos parámetros (por ejemplo, escala y forma), marcaría una diferencia en la Pregunta nº 2? Me imagino que esto no sería práctico. para algunas distribuciones, si uno de los parámetros era necesario para derivar el otro en la función de verosimilitud.
¿Cómo alteraría la estructura de la matriz y calcularía las entradas si tengo dos o más tratamientos más dos o más parámetros? Esto parece implicar una matriz 3D o superior, en cuyo caso necesitaríamos más subíndices que solo i y j. Aún no he visto fórmulas al respecto en los textos, artículos de revistas y tutoriales que he leído hasta la fecha. (Tengo una lista de referencias si es necesario). ¿Esto se hace comúnmente en MLE del mundo real?
¿Podemos expandir la matriz para incluir distribuciones separadas o incluso familias de distribución, junto con sus parámetros? ¿Cómo afectaría esto a la estructura de la matriz?
¿Pueden las entradas de la matriz consistir en una combinación de cálculos tanto de probabilidad como de valores observados, si estos últimos están disponibles? La fórmula de Fisher Metric en https://en.wikipedia.org/wiki/Fisher_information_metric#Definition parece sustituir los PDF por probabilidades. ¿Constituiría esto mezclar información observada con información de Fisher? Esta parte de la pregunta puede llevar a otros temas como las sutiles diferencias entre la información observada y la de Fisher, que probablemente se tratan mejor en otros lugares. Me pregunto si los dos tipos de entradas se mezclan alguna vez en la misma matriz. Supongo que casi siempre se mantendrán separadas.

Me doy cuenta que las respuestas que estoy buscando probablemente sean obvias; Obviamente, me equivoco en algún concepto subyacente simple. Una vez que supere este obstáculo, debería poder insertar rápidamente algunas funciones de probabilidad en las fórmulas de Fisher, devolver algunas matrices de covarianza y practicar la selección de algunos MLE; normalmente eso sería lo más difícil parte, pero estoy estancado en esta tarea básica. Una imagen vale más que mil palabras, por así decirlo: las respuestas a las preguntas anteriores probablemente serían instantáneamente claras, si viera ejemplos con valores reales conectados. Todo lo que quedaría entonces es explicar cómo llenar la matriz a partir de la fórmula habitual usando sólo dos subíndices, o alternativamente, cualquier cambio en la fórmula para adaptarse a múltiples tratamientos y parámetros. También serían útiles los enlaces a estos ejemplos o ejercicios. Gracias de antemano 🙂

Comentarios

+1 porque realmente ha intentado responderlo usted mismo, pero como un consejo amistoso: siga adelante y edite esto en una pregunta más pequeña. En esa medida, ¿no puede evaluar numéricamente una función de costo logarítmico de verosimilitud, obtener su hessiano y ver por sí mismo cómo se ven las derivadas parciales? (Puedo hacer eso por usted si lo desea). Empiece con una variable continua primero, no una discreta. (Creo que también confunde lo que hacen más parámetros; solo agregan columnas a su matriz de diseño, no dimensiones completas.)
Gracias por el consejo. ‘ intentaré editarlo varias veces esta noche y mañana para eliminarlo. Me ‘ me interesaría ver el proceso para derivar la matriz con un parámetro frente a dos frente a múltiples parámetros y tratamientos. Ese ‘ es el verdadero problema para mí; No puedo ‘ imaginar cómo manejar estos tres escenarios de manera diferente, dada la versión de la fórmula de Fisher con dos subíndices. Gracias 🙂
La forma más sucinta de responder a esto serían capturas de pantalla / enlaces de matrices de Fisher reales con 1) un parámetro 2) dos parámetros & 3) múltiples parámetros con múltiples tratamientos, siempre que las cantidades en cada columna / fila estén claramente etiquetadas. O simplemente, » Con varios parámetros & tratamientos, tendríamos X # de columnas e Y # de filas. Con un parámetro, los valores irían aquí; X. etc » Las fórmulas / tutoriales son innecesarios, a menos que se necesiten cambios para acomodar parámetros adicionales & tratamientos. Puedo & debería hacerlo yo mismo; Solo necesito ejemplos terminados para comparar mi estructura.
Esto parece bastante desalentador de responder. Creo que podría ser más fácil dar un ejemplo & que muestre dónde está ‘ atascado en la derivación o confundido acerca de la interpretación. Pero, para empezar, ¿qué significa ‘ un » tratamiento «? ¿Una observación? ¿Un tratamiento experimental?
@Scortchi La respuesta ‘ probablemente sea inusualmente simple. El uso de exactamente 2 subíndices i & j en la fórmula es el único punto en el que ‘ estoy atascado en la derivación; No puedo ‘ comprender cómo eso puede adaptarse a parámetros únicos o múltiples parámetros / tratamientos. La visualización de matrices de información de Fisher terminadas reales con columnas & filas claramente etiquetadas respondería; simplemente no hay ‘ t muchos en la literatura. Yo ‘ y luego digo, » Ajá, es por eso que 2 subíndices pueden manejar 3 parámetros o solo 1, etc. Aquí es donde se colocaría en la matriz. » Es ‘ solo la estructura del producto terminado I ‘ m después, nada más.

Respuesta

La información de Fisher es una matriz cuadrada simétrica con un número de filas / columnas igual al número de parámetros que estás estimando. Recuerda que es una matriz de covarianza de las puntuaciones, & hay una puntuación para cada parámetro; o la expectativa de el negativo de un arpillera, con un gradiente para cada parámetro. Cuando desea considerar diferentes tratamientos experimentales, representa sus efectos agregando más parámetros al modelo; es decir, más filas / columnas (en lugar de más dimensiones — una matriz tiene dos dimensiones por definición). Cuando está estimando g solo un parámetro, la información de Fisher es solo una matriz uno por uno (un escalar) — la varianza de, o el valor esperado de la negativa de la segunda derivada de , el marcador.

Para un modelo de regresión lineal simple de $ Y $ en $ x $ con $ n $ observaciones

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

donde $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, hay tres parámetros para estimar, la intersección $ \ beta_0 $, la pendiente $ \ beta_1 $, & la varianza del error $ \ sigma ^ 2 $; la información de Fisher es

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_0} \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ sigma ^ 2} \\ \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ parcial \ beta_1} \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ sigma ^ 2} \\ \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ parcial \ sigma ^ 2} \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_0} & \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ sigma ^ 2} \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ parcial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matriz} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_0 \ parcial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_0 \ parcial \ sigma ^ 2} \\ \ tfrac {\ parcial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_1 \ parcial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ parcial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_1 \ parcial \ sigma ^ 2} \\ \ tfrac {\ parcial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ parcial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ sigma ^ 2) ^ 2 } \\ \ end {matriz} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

donde $ \ ell (\ cdot) $ es la función de probabilidad logarítmica de los parámetros. (Tenga en cuenta que $ x $ puede ser una variable ficticia que indique un tratamiento en particular).

Comentarios

Perfecto: ‘ s exactamente lo que necesitaba. ‘ reflexionaré sobre esto durante la noche y veré si necesito alguna aclaración. No puedo ‘ detectar alguna en este momento, pero esta respuesta ya aborda todos los escenarios variados que mencioné anteriormente, de una sola vez. Gracias
La estructura del ejemplo de @Scortchi ‘ muestra claramente cómo la fórmula de Fisher a la que me vinculé necesita solo dos subíndices de matriz, i y j, para acomodar cualquier número de parámetros y valores. Cada no diagonal en la matriz superior tiene exactamente dos términos en el dividendo; en lugar de sumar o restar términos de cada dividendo, cada combinación única de parámetros suma o resta filas y columnas de la matriz. La mayoría de la literatura publicada no ‘ aclara esa importante distinción, lo que me llevó a confusión.

Comentarios

Respuesta

Comentarios

Deja una respuesta Cancelar la respuesta