Suponha que temos uma variável aleatória $ X \ sim f (x | \ theta) $ . Se $ \ theta_0 $ fosse o parâmetro verdadeiro, a função de verossimilhança deveria ser maximizada e a derivada igual a zero. Este é o princípio básico por trás do estimador de máxima verossimilhança.
Pelo que entendi, as informações de Fisher são definidas como
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Assim, se $ \ theta_0 $ é o parâmetro verdadeiro, $ I (\ theta) = 0 $ . Mas se $ \ theta_0 $ não for o parâmetro verdadeiro, teremos uma quantidade maior de informações de Fisher.
minhas perguntas
- As informações de Fisher medem o “erro “de um determinado MLE? Em outras palavras, a existência de informações positivas de Fisher não implica que meu MLE não pode ser ideal?
- Como essa definição de “informação” difere da usada por Shannon? Por que chamamos de informação?
Comentários
- Por que você escreve $ E_ \ theta $? A expectativa está acima dos valores de $ X $ distribuídos como se viessem de sua distribuição com o parâmetro $ \ theta $.
- Além disso, $ I (\ theta) $ não é zero no parâmetro verdadeiro.
- O E (S) é zero (isto é: expectativa da função de pontuação), mas como Neil G escreveu – as informações do pescador (V (S)) não são (normalmente) zero.
Resposta
Tentando complementar nas outras respostas … Que tipo de informação é informação de Fisher? Comece com a função log-verossimilhança $$ \ ell (\ theta) = \ log f (x; \ theta) $$ como uma função de $ \ theta $ para $ \ theta \ in \ Theta $, o espaço de parâmetro. Assumindo algumas condições de regularidade que não discutimos aqui, temos $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (escreveremos as derivadas em relação ao parâmetro como pontos como aqui). A variação é a informação de Fisher $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ a última fórmula mostrando que é a curvatura (negativa) da função log-verossimilhança. Muitas vezes, encontra-se o estimador de máxima verossimilhança (mle) de $ \ theta $ resolvendo a equação de verossimilhança $ \ dot {\ ell} (\ theta) = 0 $ quando a informação de Fisher é a variância da pontuação $ \ dot {\ ell } (\ theta) $ é grande, então a solução para essa equação será muito sensível aos dados, dando uma esperança de alta precisão do mle. Isso é confirmado pelo menos assintoticamente, sendo a variância assintótica do mle o inverso da informação de Fisher.
Como podemos interpretar isso? $ \ ell (\ theta) $ é a informação de probabilidade sobre o parâmetro $ \ theta $ da amostra. Na verdade, isso só pode ser interpretado em um sentido relativo, como quando o usamos para comparar as plausibilidades de dois valores de parâmetros possíveis distintos por meio do teste de razão de verossimilhança $ \ ell (\ theta_0) – \ ell (\ theta_1) $. A taxa de variação da probabilidade logarítmica é a função de pontuação $ \ dot {\ ell} (\ theta) $ nos diz o quão rápido a probabilidade muda e sua variação $ I (\ theta) $ quanto isso varia de amostra para amostra, em um determinado valor de parâmetro, digamos $ \ theta_0 $. A equação (o que é realmente surpreendente!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ nos diz que existe uma relação (igualdade) entre a variabilidade na informação ( verossimilhança) para um determinado valor de parâmetro, $ \ theta_0 $, e a curvatura da função de verossimilhança para esse valor de parâmetro. Esta é uma relação surpreendente entre a variabilidade (variância) desta estatística $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ e a mudança esperada na semelhança quando variamos o parâmetro $ \ theta $ em algum intervalo em torno de $ \ theta_0 $ (para os mesmos dados). Isso é realmente estranho, surpreendente e poderoso!
Então, qual é a função de verossimilhança? Normalmente pensamos no modelo estatístico $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ como uma família de distribuições de probabilidade para os dados $ x $, indexados pelo parâmetro $ \ theta $ algum elemento em o espaço de parâmetro $ \ Theta $. Pensamos neste modelo como sendo verdadeiro se existir algum valor $ \ theta_0 \ in \ Theta $ de forma que os dados $ x $ realmente tenham a distribuição de probabilidade $ f (x; \ theta_0) $. Portanto, obtemos um modelo estatístico incorporando a distribuição de probabilidade geradora de dados verdadeira $ f (x; \ theta_0) $ em uma família de distribuições de probabilidade. Mas, está claro que tal incorporação pode ser feita de muitas maneiras diferentes, e cada incorporação será um modelo “verdadeiro” e fornecerá diferentes funções de probabilidade. E, sem essa incorporação, não há função de probabilidade. Parece que realmente precisamos de alguma ajuda, de alguns princípios para escolher sabiamente uma incorporação!
Então, o que isso significa? Isso significa que a escolha da função de verossimilhança nos diz como esperaríamos que os dados mudassem, se a verdade mudasse um pouco. Mas, isso não pode realmente ser verificado pelos dados, já que os dados apenas fornecem informações sobre a verdadeira função do modelo $ f (x; \ theta_0) $ que realmente gerou os dados, e não nada sobre todos os outros elementos no modelo escolhido. Desta forma, vemos que a escolha da função de verossimilhança é semelhante à escolha de um prior na análise Bayesiana, ela injeta informações não-dados na análise. Vejamos isso em um exemplo simples (um tanto artificial) e vejamos o efeito de incorporar $ f (x; \ theta_0) $ em um modelo de maneiras diferentes.
Vamos supor que $ X_1, \ dotsc, X_n $ são iid como $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Então, essa é a verdadeira distribuição geradora de dados. Agora, vamos incorporar isso em um modelo de duas maneiras diferentes, modelo A e modelo B. $$ A \ dois pontos X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ dois pontos X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ você pode verificar se isso coincide com $ \ mu = 10 $.
As funções log-verossimilhança se tornam $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i \ mu) ^ 2} {\ mu} $$
As funções de pontuação : (derivadas de probabilidade logarítmica): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ e as curvaturas $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ então, as informações de Fisher realmente dependem da incorporação. Agora, calculamos a informação de Fisher no valor verdadeiro $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ então as informações de Fisher sobre o parâmetro são um pouco maiores no modelo B.
Isso ilustra que, em De alguma forma, as informações de Fisher nos dizem quão rápido as informações dos dados sobre o parâmetro teriam mudado se o parâmetro governante mudasse da maneira postulada pela incorporação em uma família modelo . A explicação da maior informação no modelo B é que nossa família de modelo B postula que se a expectativa tivesse aumentado, então a variância também teria aumentado . Para que, no modelo B, a variância da amostra também carregue informações sobre $ \ mu $, o que não acontecerá no modelo A.
Além disso, este exemplo ilustra que realmente precisamos de alguma teoria para ajudar -nos em como construir famílias modelo.
Comentários
- ótima explicação. Por que você diz $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? é ‘ uma função de $ \ theta $ – isn ‘ t é 0 apenas quando avaliado no parâmetro verdadeiro $ \ theta_0 $?
- Sim, o que você diz é verdade, @idadanny É zero quando avaliado com o valor verdadeiro do parâmetro.
- Obrigado novamente @kjetil – apenas mais uma pergunta: é a relação surpreendente entre a variância da pontuação e a curvatura da probabilidade verdadeira para cada $ \ theta $? ou apenas na vizinhança do parâmetro verdadeiro $ \ theta_0 $?
- Novamente, essa relação é verdadeira para o valor verdadeiro do parâmetro. Mas para que isso ajude, deve haver continuidade, de modo que seja aproximadamente verdadeiro em algum bairro, já que o usaremos no valor estimado $ \ hat {\ theta} $, não apenas no verdadeiro (desconhecido) valor.
- portanto, a relação vale para o parâmetro verdadeiro $ \ theta_0 $, quase vale para $ \ theta_ {mle} $, pois supomos que ‘ s na vizinhança de $ \ theta_0 $, mas para um $ \ theta_1 $ geral não se sustenta, certo?
Resposta
Vamos pensar em termos da função de log-verossimilhança negativa $ \ ell $. A pontuação negativa é seu gradiente em relação ao valor do parâmetro. No parâmetro verdadeiro, a pontuação é zero. Caso contrário, dá a direção para o mínimo $ \ ell $ (ou no caso de $ \ ell $ não convexo, um ponto de sela ou mínimo ou máximo local).
A informação de Fisher mede a curvatura de $ \ ell $ em torno de $ \ theta $ se os dados seguirem $ \ theta $. Em outras palavras, eles informam quanto o parâmetro afetaria sua probabilidade de log.
Considere que você tinha um grande modelo com milhões de parâmetros. E você tinha um pequeno pen drive para armazenar seu modelo. Como você deve priorizar quantos bits de cada parâmetro armazenar? A resposta certa é alocar bits de acordo com as informações de Fisher (Rissanen escreveu sobre isso). Se a informação de Fisher de um parâmetro for zero, esse parâmetro não importa.
Chamamos isso de “informação” porque a informação de Fisher mede o quanto esse parâmetro nos diz sobre os dados.
Uma maneira coloquial de pensar sobre isso é: Suponha que o parâmetros estão dirigindo um carro, e os dados estão no banco de trás corrigindo o motorista. O chato dos dados são as informações de Fisher. Se os dados permitirem que o motorista dirija, as informações de Fisher são zero; se os dados estão constantemente fazendo correções, é grande. Nesse sentido, a informação de Fisher é a quantidade de informação que vai dos dados aos parâmetros.
Considere o que acontece se você tornar o volante mais sensível. Isso equivale a uma reparametrização. Nesse caso, os dados não querem ser tão altos por medo de o carro derrapar. Este tipo de reparametrização diminui a informação de Fisher.
Resposta
Complementar à boa resposta de @NeilG (+1) e responda às suas perguntas específicas:
- Eu diria que conta a “precisão” em vez do próprio “erro”.
Lembre-se de que o Hessian do log -a probabilidade avaliada nas estimativas de ML é a informação de Fisher observada. Os erros padrão estimados são as raízes quadradas dos elementos diagonais do inverso da matriz de informação de Fisher observada. Decorrente disso, a informação de Fisher é o traço da matriz de informação de Fisher. Dado que a matriz de informação de Fisher $ I $ é uma matriz de matriz semidefinida positiva de Hermit, então as entradas diagonais $ I_ {j, j} $ dela são reais e não negativas; como consequência direta, traça $ tr (I) $ deve ser positivo. Isso significa que você pode ter apenas estimadores “não ideais” de acordo com sua afirmação. Portanto, não, uma informação de Fisher positiva não está relacionada a quão ideal é o seu MLE.
- A definição difere na maneira como interpretamos a noção de informação em ambos os casos. Dito isso, as duas medidas estão intimamente relacionadas.
O inverso da informação de Fisher é a variância mínima de um estimador imparcial ( Cramér– Rao vinculado ). Nesse sentido, a matriz de informações indica quanta informação sobre os coeficientes estimados está contida nos dados. Ao contrário, a entropia de Shannon foi obtida da termodinâmica. Relaciona o conteúdo da informação de um determinado valor de uma variável como $ –p · log_2 (p) $ onde $ p $ é a probabilidade da variável assumir o valor. Ambos são medidas de quão “informativa” uma variável é. No primeiro caso, você julga esta informação em termos de precisão, enquanto no segundo caso, em termos de desordem; lados diferentes, mesma moeda! : D
Para recapitular: O inverso da matriz de informação de Fisher $ I $ avaliada nos valores do estimador ML é a matriz de covariância assintótica ou aproximada. Como os valores desse estimador de ML são encontrados graficamente em um mínimo local, as informações de Fisher mostram a profundidade desse mínimo e quanto espaço de manobra você tem em torno dele. Encontrei este artigo de Lutwak et al. em Extensões das informações de Fisher e desigualdade de Stam uma leitura informativa sobre este assunto. Os artigos da Wikipedia sobre a Fisher Information Metric e sobre divergência Jensen – Shannon também são adequados para começar.