Suponha que temos uma variável aleatória $ X \ sim f (x | \ theta) $ . Se $ \ theta_0 $ fosse o parâmetro verdadeiro, a função de verossimilhança deveria ser maximizada e a derivada igual a zero. Este é o princípio básico por trás do estimador de máxima verossimilhança.

Pelo que entendi, as informações de Fisher são definidas como

$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$

Assim, se $ \ theta_0 $ é o parâmetro verdadeiro, $ I (\ theta) = 0 $ . Mas se $ \ theta_0 $ não for o parâmetro verdadeiro, teremos uma quantidade maior de informações de Fisher.

minhas perguntas

  1. As informações de Fisher medem o “erro “de um determinado MLE? Em outras palavras, a existência de informações positivas de Fisher não implica que meu MLE não pode ser ideal?
  2. Como essa definição de “informação” difere da usada por Shannon? Por que chamamos de informação?

Comentários

  • Por que você escreve $ E_ \ theta $? A expectativa está acima dos valores de $ X $ distribuídos como se viessem de sua distribuição com o parâmetro $ \ theta $.
  • Além disso, $ I (\ theta) $ não é zero no parâmetro verdadeiro.
  • O E (S) é zero (isto é: expectativa da função de pontuação), mas como Neil G escreveu – as informações do pescador (V (S)) não são (normalmente) zero.

Resposta

Tentando complementar nas outras respostas … Que tipo de informação é informação de Fisher? Comece com a função log-verossimilhança $$ \ ell (\ theta) = \ log f (x; \ theta) $$ como uma função de $ \ theta $ para $ \ theta \ in \ Theta $, o espaço de parâmetro. Assumindo algumas condições de regularidade que não discutimos aqui, temos $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (escreveremos as derivadas em relação ao parâmetro como pontos como aqui). A variação é a informação de Fisher $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ a última fórmula mostrando que é a curvatura (negativa) da função log-verossimilhança. Muitas vezes, encontra-se o estimador de máxima verossimilhança (mle) de $ \ theta $ resolvendo a equação de verossimilhança $ \ dot {\ ell} (\ theta) = 0 $ quando a informação de Fisher é a variância da pontuação $ \ dot {\ ell } (\ theta) $ é grande, então a solução para essa equação será muito sensível aos dados, dando uma esperança de alta precisão do mle. Isso é confirmado pelo menos assintoticamente, sendo a variância assintótica do mle o inverso da informação de Fisher.

Como podemos interpretar isso? $ \ ell (\ theta) $ é a informação de probabilidade sobre o parâmetro $ \ theta $ da amostra. Na verdade, isso só pode ser interpretado em um sentido relativo, como quando o usamos para comparar as plausibilidades de dois valores de parâmetros possíveis distintos por meio do teste de razão de verossimilhança $ \ ell (\ theta_0) – \ ell (\ theta_1) $. A taxa de variação da probabilidade logarítmica é a função de pontuação $ \ dot {\ ell} (\ theta) $ nos diz o quão rápido a probabilidade muda e sua variação $ I (\ theta) $ quanto isso varia de amostra para amostra, em um determinado valor de parâmetro, digamos $ \ theta_0 $. A equação (o que é realmente surpreendente!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ nos diz que existe uma relação (igualdade) entre a variabilidade na informação ( verossimilhança) para um determinado valor de parâmetro, $ \ theta_0 $, e a curvatura da função de verossimilhança para esse valor de parâmetro. Esta é uma relação surpreendente entre a variabilidade (variância) desta estatística $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ e a mudança esperada na semelhança quando variamos o parâmetro $ \ theta $ em algum intervalo em torno de $ \ theta_0 $ (para os mesmos dados). Isso é realmente estranho, surpreendente e poderoso!

Então, qual é a função de verossimilhança? Normalmente pensamos no modelo estatístico $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ como uma família de distribuições de probabilidade para os dados $ x $, indexados pelo parâmetro $ \ theta $ algum elemento em o espaço de parâmetro $ \ Theta $. Pensamos neste modelo como sendo verdadeiro se existir algum valor $ \ theta_0 \ in \ Theta $ de forma que os dados $ x $ realmente tenham a distribuição de probabilidade $ f (x; \ theta_0) $. Portanto, obtemos um modelo estatístico incorporando a distribuição de probabilidade geradora de dados verdadeira $ f (x; \ theta_0) $ em uma família de distribuições de probabilidade. Mas, está claro que tal incorporação pode ser feita de muitas maneiras diferentes, e cada incorporação será um modelo “verdadeiro” e fornecerá diferentes funções de probabilidade. E, sem essa incorporação, não há função de probabilidade. Parece que realmente precisamos de alguma ajuda, de alguns princípios para escolher sabiamente uma incorporação!

Então, o que isso significa? Isso significa que a escolha da função de verossimilhança nos diz como esperaríamos que os dados mudassem, se a verdade mudasse um pouco. Mas, isso não pode realmente ser verificado pelos dados, já que os dados apenas fornecem informações sobre a verdadeira função do modelo $ f (x; \ theta_0) $ que realmente gerou os dados, e não nada sobre todos os outros elementos no modelo escolhido. Desta forma, vemos que a escolha da função de verossimilhança é semelhante à escolha de um prior na análise Bayesiana, ela injeta informações não-dados na análise. Vejamos isso em um exemplo simples (um tanto artificial) e vejamos o efeito de incorporar $ f (x; \ theta_0) $ em um modelo de maneiras diferentes.

Vamos supor que $ X_1, \ dotsc, X_n $ são iid como $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Então, essa é a verdadeira distribuição geradora de dados. Agora, vamos incorporar isso em um modelo de duas maneiras diferentes, modelo A e modelo B. $$ A \ dois pontos X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ dois pontos X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ você pode verificar se isso coincide com $ \ mu = 10 $.

As funções log-verossimilhança se tornam $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i \ mu) ^ 2} {\ mu} $$

As funções de pontuação : (derivadas de probabilidade logarítmica): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ e as curvaturas $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ então, as informações de Fisher realmente dependem da incorporação. Agora, calculamos a informação de Fisher no valor verdadeiro $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ então as informações de Fisher sobre o parâmetro são um pouco maiores no modelo B.

Isso ilustra que, em De alguma forma, as informações de Fisher nos dizem quão rápido as informações dos dados sobre o parâmetro teriam mudado se o parâmetro governante mudasse da maneira postulada pela incorporação em uma família modelo . A explicação da maior informação no modelo B é que nossa família de modelo B postula que se a expectativa tivesse aumentado, então a variância também teria aumentado . Para que, no modelo B, a variância da amostra também carregue informações sobre $ \ mu $, o que não acontecerá no modelo A.

Além disso, este exemplo ilustra que realmente precisamos de alguma teoria para ajudar -nos em como construir famílias modelo.

Comentários

  • ótima explicação. Por que você diz $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? é ‘ uma função de $ \ theta $ – isn ‘ t é 0 apenas quando avaliado no parâmetro verdadeiro $ \ theta_0 $?
  • Sim, o que você diz é verdade, @idadanny É zero quando avaliado com o valor verdadeiro do parâmetro.
  • Obrigado novamente @kjetil – apenas mais uma pergunta: é a relação surpreendente entre a variância da pontuação e a curvatura da probabilidade verdadeira para cada $ \ theta $? ou apenas na vizinhança do parâmetro verdadeiro $ \ theta_0 $?
  • Novamente, essa relação é verdadeira para o valor verdadeiro do parâmetro. Mas para que isso ajude, deve haver continuidade, de modo que seja aproximadamente verdadeiro em algum bairro, já que o usaremos no valor estimado $ \ hat {\ theta} $, não apenas no verdadeiro (desconhecido) valor.
  • portanto, a relação vale para o parâmetro verdadeiro $ \ theta_0 $, quase vale para $ \ theta_ {mle} $, pois supomos que ‘ s na vizinhança de $ \ theta_0 $, mas para um $ \ theta_1 $ geral não se sustenta, certo?

Resposta

Vamos pensar em termos da função de log-verossimilhança negativa $ \ ell $. A pontuação negativa é seu gradiente em relação ao valor do parâmetro. No parâmetro verdadeiro, a pontuação é zero. Caso contrário, dá a direção para o mínimo $ \ ell $ (ou no caso de $ \ ell $ não convexo, um ponto de sela ou mínimo ou máximo local).

A informação de Fisher mede a curvatura de $ \ ell $ em torno de $ \ theta $ se os dados seguirem $ \ theta $. Em outras palavras, eles informam quanto o parâmetro afetaria sua probabilidade de log.

Considere que você tinha um grande modelo com milhões de parâmetros. E você tinha um pequeno pen drive para armazenar seu modelo. Como você deve priorizar quantos bits de cada parâmetro armazenar? A resposta certa é alocar bits de acordo com as informações de Fisher (Rissanen escreveu sobre isso). Se a informação de Fisher de um parâmetro for zero, esse parâmetro não importa.

Chamamos isso de “informação” porque a informação de Fisher mede o quanto esse parâmetro nos diz sobre os dados.


Uma maneira coloquial de pensar sobre isso é: Suponha que o parâmetros estão dirigindo um carro, e os dados estão no banco de trás corrigindo o motorista. O chato dos dados são as informações de Fisher. Se os dados permitirem que o motorista dirija, as informações de Fisher são zero; se os dados estão constantemente fazendo correções, é grande. Nesse sentido, a informação de Fisher é a quantidade de informação que vai dos dados aos parâmetros.

Considere o que acontece se você tornar o volante mais sensível. Isso equivale a uma reparametrização. Nesse caso, os dados não querem ser tão altos por medo de o carro derrapar. Este tipo de reparametrização diminui a informação de Fisher.

Resposta

Complementar à boa resposta de @NeilG (+1) e responda às suas perguntas específicas:

  1. Eu diria que conta a “precisão” em vez do próprio “erro”.

Lembre-se de que o Hessian do log -a probabilidade avaliada nas estimativas de ML é a informação de Fisher observada. Os erros padrão estimados são as raízes quadradas dos elementos diagonais do inverso da matriz de informação de Fisher observada. Decorrente disso, a informação de Fisher é o traço da matriz de informação de Fisher. Dado que a matriz de informação de Fisher $ I $ é uma matriz de matriz semidefinida positiva de Hermit, então as entradas diagonais $ I_ {j, j} $ dela são reais e não negativas; como consequência direta, traça $ tr (I) $ deve ser positivo. Isso significa que você pode ter apenas estimadores “não ideais” de acordo com sua afirmação. Portanto, não, uma informação de Fisher positiva não está relacionada a quão ideal é o seu MLE.

  1. A definição difere na maneira como interpretamos a noção de informação em ambos os casos. Dito isso, as duas medidas estão intimamente relacionadas.

O inverso da informação de Fisher é a variância mínima de um estimador imparcial ( Cramér– Rao vinculado ). Nesse sentido, a matriz de informações indica quanta informação sobre os coeficientes estimados está contida nos dados. Ao contrário, a entropia de Shannon foi obtida da termodinâmica. Relaciona o conteúdo da informação de um determinado valor de uma variável como $ –p · log_2 (p) $ onde $ p $ é a probabilidade da variável assumir o valor. Ambos são medidas de quão “informativa” uma variável é. No primeiro caso, você julga esta informação em termos de precisão, enquanto no segundo caso, em termos de desordem; lados diferentes, mesma moeda! : D

Para recapitular: O inverso da matriz de informação de Fisher $ I $ avaliada nos valores do estimador ML é a matriz de covariância assintótica ou aproximada. Como os valores desse estimador de ML são encontrados graficamente em um mínimo local, as informações de Fisher mostram a profundidade desse mínimo e quanto espaço de manobra você tem em torno dele. Encontrei este artigo de Lutwak et al. em Extensões das informações de Fisher e desigualdade de Stam uma leitura informativa sobre este assunto. Os artigos da Wikipedia sobre a Fisher Information Metric e sobre divergência Jensen – Shannon também são adequados para começar.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *