Supongamos que tenemos una variable aleatoria $ X \ sim f (x | \ theta) $ . Si $ \ theta_0 $ fuera el parámetro verdadero, la función de probabilidad debe maximizarse y la derivada debe ser igual a cero. Este es el principio básico detrás del estimador de máxima verosimilitud.
Según tengo entendido, la información de Fisher se define como
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ parcial} {\ parcial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Por lo tanto, si $ \ theta_0 $ es el verdadero parámetro, $ I (\ theta) = 0 $ . Pero si $ \ theta_0 $ no es el parámetro verdadero, entonces tendremos una mayor cantidad de información de Fisher.
mis preguntas
- ¿La información de Fisher mide el «error «de un MLE dado? En otras palabras, ¿no implica la existencia de información positiva de Fisher que mi MLE no puede ser ideal?
- ¿En qué se diferencia esta definición de «información» de la utilizada por Shannon? ¿Por qué lo llamamos información?
Comentarios
- ¿Por qué lo escribes $ E_ \ theta $? La expectativa es sobre valores de $ X $ distribuidos como si vinieran de su distribución con el parámetro $ \ theta $.
- También $ I (\ theta) $ no es cero en el parámetro verdadero.
- La E (S) es cero (es decir, la expectativa de la función de puntuación), pero como escribió Neil G, la información del pescador (V (S)) no es (generalmente) cero.
Respuesta
Tratando de complementar las otras respuestas … ¿Qué tipo de información es información de Fisher? Comience con la función de loglikelihood $$ \ ell (\ theta) = \ log f (x; \ theta) $$ como una función de $ \ theta $ para $ \ theta \ in \ Theta $, el espacio de parámetros. Suponiendo algunas condiciones de regularidad que no discutimos aquí, tenemos $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (escribiremos las derivadas con respecto al parámetro como puntos como aquí). La varianza es la información de Fisher $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ la última fórmula muestra que es la curvatura (negativa) de la función loglikelihood. A menudo se encuentra el estimador de máxima verosimilitud (mle) de $ \ theta $ resolviendo la ecuación de verosimilitud $ \ dot {\ ell} (\ theta) = 0 $ cuando la información de Fisher es la varianza de la puntuación $ \ dot {\ ell } (\ theta) $ es grande, entonces la solución a esa ecuación será muy sensible a los datos, dando la esperanza de una alta precisión del mle. Esto se confirma al menos de forma asintótica, siendo la varianza asintótica de la mle la inversa de la información de Fisher.
¿Cómo podemos interpretar esto? $ \ ell (\ theta) $ es la información de probabilidad sobre el parámetro $ \ theta $ de la muestra. Esto realmente solo se puede interpretar en un sentido relativo, como cuando lo usamos para comparar las plausibilidades de dos posibles valores de parámetros distintos mediante la prueba de razón de verosimilitud $ \ ell (\ theta_0) – \ ell (\ theta_1) $. La tasa de cambio de la verosimilitud es la función de puntuación $ \ dot {\ ell} (\ theta) $ nos dice qué tan rápido cambia la probabilidad y su varianza $ I (\ theta) $ cuánto varía de una muestra a otra, a un valor de parámetro dado, digamos $ \ theta_0 $. La ecuación (¡que es realmente sorprendente!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ nos dice que hay una relación (igualdad) entre la variabilidad en la información ( probabilidad) para un valor de parámetro dado, $ \ theta_0 $, y la curvatura de la función de probabilidad para ese valor de parámetro. Esta es una relación sorprendente entre la variabilidad (varianza) de esta estadística $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ y el cambio esperado en la similitud cuando variamos el parámetro $ \ theta $ en algún intervalo alrededor de $ \ theta_0 $ (para los mismos datos). ¡Esto es realmente extraño, sorprendente y poderoso!
Entonces, ¿cuál es la función de probabilidad? Generalmente pensamos en el modelo estadístico $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ como una familia de distribuciones de probabilidad para datos $ x $, indexados por el parámetro $ \ theta $ algún elemento en el espacio de parámetros $ \ Theta $. Pensamos que este modelo es cierto si existe algún valor $ \ theta_0 \ in \ Theta $ tal que los datos $ x $ en realidad tengan la distribución de probabilidad $ f (x; \ theta_0) $. Entonces obtenemos un modelo estadístico incrustando la distribución de probabilidad generadora de datos verdaderos $ f (x; \ theta_0) $ en una familia de distribuciones de probabilidad. Pero, está claro que tal incrustación se puede hacer de muchas formas diferentes, y cada incrustación será un modelo «verdadero», y darán diferentes funciones de probabilidad. Y, sin tal incrustación, no hay función de probabilidad. Parece que realmente necesitamos algo de ayuda, ¡algunos principios sobre cómo elegir sabiamente una incrustación!
Entonces, ¿qué significa esto? Significa que la elección de la función de verosimilitud nos dice cómo esperaríamos que cambiaran los datos, si la verdad cambiara un poco. Pero, esto realmente no puede ser verificado por los datos, ya que los datos solo brindan información sobre la función del modelo verdadero $ f (x; \ theta_0) $ que realmente generó los datos, y no nada sobre todos los demás elementos en el modelo elegido. De esta manera, vemos que la elección de la función de verosimilitud es similar a la elección de una función previa en el análisis bayesiano, inyecta información que no es de datos en el análisis. Veamos esto en un ejemplo simple (algo artificial) y veamos el efecto de incrustar $ f (x; \ theta_0) $ en un modelo de diferentes maneras.
Supongamos que $ X_1, \ dotsc, X_n $ son iid como $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Entonces, esa es la verdadera distribución generadora de datos. Ahora, integremos esto en un modelo de dos maneras diferentes, modelo A y modelo B. $$ A \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ puedes comprobar que esto coincide para $ \ mu = 10 $.
Las funciones de loglikelihood se convierten en $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
Las funciones de puntuación : (derivadas de verosimilitud mínima): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ y las curvaturas $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ entonces, la información de Fisher realmente depende de la incrustación. Ahora, calculamos la información de Fisher en el valor real $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ por lo que la información de Fisher sobre el parámetro es algo mayor en el modelo B.
Esto ilustra que, en En cierto sentido, la información de Fisher nos dice qué tan rápido la información de los datos sobre el parámetro habría cambiado si el parámetro gobernante cambiara en la forma postulada por la incrustación en una familia modelo . La explicación de una mayor información en el modelo B es que nuestra familia de modelos B postula que si la expectativa hubiera aumentado, la varianza también habría aumentado . De modo que, en el modelo B, la varianza muestral también llevará información sobre $ \ mu $, lo que no sucederá en el modelo A.
Además, este ejemplo ilustra que realmente necesitamos algo de teoría para ayudar nosotros en cómo construir familias modelo.
Comentarios
- gran explicación. ¿Por qué dices $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? es ‘ una función de $ \ theta $ – no es ‘ t es 0 solo cuando se evalúa en el parámetro verdadero $ \ theta_0 $?
- Sí, lo que dices es cierto, @idadanny Es cero cuando se evalúa con el valor verdadero del parámetro.
- Gracias de nuevo @kjetil, así que solo una pregunta más: ¿es la sorprendente relación entre la varianza de la puntuación y la curvatura de la probabilidad es verdadera para cada $ \ theta $? o solo en la vecindad del parámetro verdadero $ \ theta_0 $?
- Nuevamente, esa relación es verdadera para el valor verdadero del parámetro. Pero para que eso sea de mucha ayuda, debe haber continuidad, de modo que sea aproximadamente cierto en algún vecindario, ya que lo usaremos al valor estimado $ \ hat {\ theta} $, no solo al verdadero (desconocido) valor.
- entonces, la relación es válida para el parámetro verdadero $ \ theta_0 $, casi es válida para $ \ theta_ {mle} $ ya que asumimos que ‘ s en el vecindario de $ \ theta_0 $, pero para un $ \ theta_1 $ general no se sostiene, ¿verdad?
Respuesta
Pensemos en términos de la función de probabilidad logarítmica negativa $ \ ell $. La puntuación negativa es su gradiente con respecto al valor del parámetro. En el parámetro verdadero, la puntuación es cero. De lo contrario, da la dirección hacia el mínimo $ \ ell $ (o en el caso de $ \ ell $ no convexos, un punto de silla o un mínimo o máximo local).
La información de Fisher mide la curvatura de $ \ ell $ alrededor de $ \ theta $ si los datos siguen a $ \ theta $. En otras palabras, te dice cuánto meneo el parámetro afectaría su probabilidad de registro.
Considere que tenía un modelo grande con millones de parámetros. Y tenías una pequeña memoria USB en la que guardar tu modelo. ¿Cómo debe priorizar cuántos bits de cada parámetro almacenar? La respuesta correcta es asignar bits de acuerdo con la información de Fisher (Rissanen escribió sobre esto). Si la información de Fisher de un parámetro es cero, ese parámetro no importa.
Lo llamamos «información» porque la información de Fisher mide cuánto nos dice este parámetro sobre los datos.
Una forma coloquial de pensar en ello es la siguiente: suponga que Los parámetros están conduciendo un automóvil y los datos están en el asiento trasero corrigiendo al conductor. Lo molesto de los datos es la información de Fisher. Si los datos permiten que el conductor conduzca, la información de Fisher es cero; si los datos están constantemente haciendo correcciones, es grande. En este sentido, la información de Fisher es la cantidad de información que va de los datos a los parámetros.
Considere lo que sucede si hace que el volante sea más sensible. Esto es equivalente a una reparametrización. En ese caso, los datos no quieren ser tan fuertes por temor a que el auto se sobrevira. Este tipo de reparametrización disminuye la información de Fisher.
Respuesta
Complementario a la buena respuesta de @NeilG (+1) y a aborde sus preguntas específicas:
- Yo diría que cuenta la «precisión» en lugar del «error» en sí.
Recuerde que el hessian del registro -La probabilidad evaluada en las estimaciones de ML es la información de Fisher observada. Los errores estándar estimados son las raíces cuadradas de los elementos diagonales de la inversa de la matriz de información de Fisher observada. A partir de esto, la información de Fisher es la traza de la matriz de información de Fisher. Dado que la matriz de información de Fisher $ I $ es una matriz hermitiana positiva-semidefinida, entonces las entradas diagonales $ I_ {j, j} $ son reales y no negativas; como consecuencia directa, traza $ tr (I) $ debe ser positivo. Esto significa que sólo puede tener estimadores «no ideales» de acuerdo con su afirmación. Por lo tanto, no, una información de Fisher positiva no está relacionada con cuán ideal es su MLE.
- La definición difiere en la forma en que interpretamos la noción de información en ambos casos. Dicho esto, las dos medidas están estrechamente relacionadas.
La inversa de la información de Fisher es la varianza mínima de un estimador insesgado ( Cramér– Rao obligado ). En ese sentido, la matriz de información indica cuánta información sobre los coeficientes estimados está contenida en los datos. Por el contrario, la entropía de Shannon se tomó de la termodinámica. Relaciona el contenido de información de un valor particular de una variable como $ –p · log_2 (p) $ donde $ p $ es la probabilidad de que la variable tome el valor. Ambas son medidas de cuán «informativa» es una variable. En el primer caso, aunque juzga esta información en términos de precisión, mientras que en el segundo caso en términos de desorden; ¡diferentes lados, misma moneda! : D
Para recapitular: La inversa de la matriz de información de Fisher $ I $ evaluada en los valores del estimador ML es la matriz de covarianza asintótica o aproximada. Como los valores de este estimador de ML se encuentran gráficamente en un mínimo local, la información de Fisher muestra qué tan profundo es ese mínimo y qué margen de maniobra tiene a su alrededor. Encontré este artículo de Lutwak et al. en Extensiones de la información de Fisher y la desigualdad de Stam , una lectura informativa sobre este asunto. Los artículos de Wikipedia sobre la Fisher Information Metric y sobre la divergencia Jensen-Shannon también son buenos para empezar.