Sou um iniciante tentando me apresentar à estimativa de máxima verossimilhança (MLE) e posso compreender alguns do material de forma adequada, como procurar picos em funções de verossimilhança, aproximar-se do limite de Cramer-Rao e inverter a matriz de informações de Fisher para derivar a matriz de covariância e as estimativas de variância. Ironicamente, estou tendo mais problemas para tentar definir precisamente o que as colunas, linhas e entradas da Matriz de Fisher devem representar e definir sua estrutura. Eu examinei uma ou duas dúzias de referências ao longo do ano passado ou mais (mais uma pesquisa em CrossValidated) e ainda não vi nenhum exemplo com valores reais inseridos nas fórmulas, embora a discussão de outros aspectos da matriz geralmente seja completa.

Vou tentar explicar em detalhes para evitar a sobreposição de tópicos mais avançados em outros tópicos. A maior parte da minha confusão parece resultar disso: a integral na equação da matriz tem uma derivada de segunda ordem e um resultado de função de verossimilhança no divisor e duas derivadas para um único parâmetro no dividendo, geralmente com dois subscritos como i e j. (Veja esta entrada da Wikipedia e esta aqui para exemplos). Sempre parece haver exatamente dois subscritos, o que implica uma matriz bidimensional e me faz fazer as perguntas relacionadas abaixo:

  1. Se eu tivesse apenas um tratamento e um parâmetro, isso parece para implicar uma matriz unidimensional. Em caso afirmativo, a que se referem os índices da matriz i e j? Eu precisaria fazer um produto cruzado da dimensão única com ela mesma para derivar o dividendo na equação da matriz de Fisher?

  2. Como as estruturas de coluna e linha mudariam se eu tivesse dois tratamentos e necessário estimar um único parâmetro? Isso implicaria em uma matriz 2D?

  3. A situação inversa, em que há um tratamento e dois parâmetros (digamos, escala e forma) faria diferença para a pergunta nº 2? Imagino que não seria prático para algumas distribuições, se um dos parâmetros foi necessário para derivar o outro na função de verossimilhança.

  4. Como eu alteraria a estrutura da matriz e calcularia as entradas se eu tivesse dois ou mais tratamentos mais dois ou mais parâmetros? Isso parece implicar em uma matriz 3D ou superior, caso em que precisaríamos de mais subscritos do que apenas i e j. Ainda estou para ver quaisquer fórmulas para esse efeito nos textos, artigos de periódicos e tutoriais que li até agora (Tenho uma lista de referências, se necessário). Isso é comumente feito em MLEs do mundo real?

  5. Podemos expandir a matriz para incluir distribuições separadas ou mesmo famílias de distribuição, junto com seus parâmetros? Como isso afetaria a estrutura da matriz?

  6. As entradas da matriz podem consistir em uma mistura de cálculos de valores de probabilidade e observados, se os últimos estiverem disponíveis? A fórmula Fisher Metric em https://en.wikipedia.org/wiki/Fisher_information_metric#Definition parece substituir PDFs para probabilidades. Isso constituiria uma mistura de informações observadas com informações de Fisher? Esta parte da pergunta pode levar a outros tópicos, como as diferenças sutis entre as informações observadas e de Fisher, que provavelmente são melhor abordadas em outro lugar. Estou apenas me perguntando aqui se os dois tipos de entradas são sempre misturados na mesma matriz. Estou assumindo que eles quase sempre seriam mantidos separados.

Eu sei que as respostas que procuro provavelmente não têm cérebro; Obviamente, estou entendendo errado alguns conceitos básicos simples. Depois de superar esse obstáculo, devo ser capaz de inserir rapidamente algumas funções de probabilidade nas fórmulas de Fisher, retornar algumas matrizes de covariância e praticar a seleção de alguns MLEs; normalmente isso seria o difícil parte, mas estou preso nesta tarefa básica. Uma imagem vale mais que mil palavras, por assim dizer: as respostas às perguntas acima provavelmente seriam instantaneamente claras, se eu visse exemplos com valores reais inseridos. Tudo o que restaria então é explicar como preencher a matriz a partir da fórmula usual usando apenas dois subscritos ou, alternativamente, quaisquer alterações na fórmula para acomodar vários tratamentos e parâmetros. Links para tais exemplos ou exercícios também seriam úteis. Agradecemos antecipadamente 🙂

Comentários

  • +1 porque você realmente tentou responder sozinho, mas como um conselho amigável: Vá em frente e edite isso em uma questão menor. Nessa medida, você não pode avaliar numericamente uma função de custo de probabilidade logarítmica, obter seu Hessiano e ver por si mesmo como são as derivadas parciais? (Posso fazer isso por você, se quiser.) Comece com uma variável contínua primeiro, não discreta. (Eu acho que você também confunde o que mais parâmetros fazem; eles apenas adicionam colunas à sua matriz de design, não dimensões completas.)
  • Obrigado pelo conselho – ‘ tentarei editá-lo algumas vezes esta noite e amanhã para cortá-lo. Eu ‘ d estaria interessado em ver o processo para derivar a matriz com um parâmetro vs. dois vs. múltiplos parâmetros e tratamentos. Esse ‘ é o verdadeiro obstáculo para mim; Não posso ‘ imaginar como lidar com esses três cenários de maneira diferente, dada a versão da fórmula de Fisher com dois subscritos. Obrigado 🙂
  • A maneira mais sucinta de responder seria capturas de tela / links de matrizes Fisher reais com 1) um parâmetro 2) dois parâmetros & 3) múltiplo parâmetros com múltiplos tratamentos, desde que as quantidades em cada coluna / linha estejam claramente identificadas. Ou um simples tratamento ” Com vários parâmetros &, teríamos X # de colunas e Y # de linhas. Com um parâmetro, os valores iriam aqui; X. etc ” Fórmulas / orientações são desnecessárias, a menos que mudanças sejam necessárias para acomodar parâmetros & tratamentos extras. Eu posso & devo fazer isso sozinho; Eu só preciso terminar de exemplos para comparar minha estrutura.
  • Parece um tanto difícil de responder. Acho que seria mais fácil dar um exemplo & mostrar onde você ‘ está preso na derivação ou confuso sobre a interpretação. Mas, para começar, o que ‘ s a ” tratamento ” significa? Uma observação? Um tratamento experimental?
  • @Scortchi A resposta ‘ é provavelmente muito simples. O uso de exatamente 2 subscritos i & j na fórmula é o único ponto onde eu ‘ estou preso na derivação; Eu não posso ‘ t entender como isso pode acomodar parâmetros únicos ou vários parâmetros / tratamentos. Ver as Matrizes de Informação Fisher finalizadas com colunas claramente rotuladas & linhas iria responder; simplesmente não existem ‘ t muitos na literatura. Eu ‘ d então diga, ” Aha, é por isso que 2 subscritos podem lidar com 3 parâmetros ou apenas 1, etc. Aqui é onde eles seria colocado na matriz. ” É ‘ é apenas a estrutura do produto acabado I ‘ m depois, nada mais.

Resposta

A informação de Fisher é uma matriz quadrada simétrica com um número de linhas / colunas iguais ao número de parâmetros que você está estimando. Lembre-se de que é uma “matriz de covariância das pontuações, & existe” uma pontuação para cada parâmetro; ou a expectativa de o negativo de um Hessian, com um gradiente para cada parâmetro. Quando você deseja considerar diferentes tratamentos experimentais, você representa seus efeitos adicionando mais parâmetros ao modelo, ou seja, mais linhas / colunas (em vez de mais dimensões — uma matriz tem duas dimensões por definição). Quando você “re estimar g apenas um único parâmetro, a informação de Fisher é apenas uma matriz um por um (um escalar) — a variância de, ou o valor esperado do negativo da segunda derivada de , a pontuação.

Para um modelo de regressão linear simples de $ Y $ em $ x $ com $ n $ observações

$ y_i = \ beta_0 + \ beta_1 x_i + \ varejpsilon_i $

onde $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, existem três parâmetros para estimar, a interceptação $ \ beta_0 $, a inclinação $ \ beta_1 $, & a variância do erro $ \ sigma ^ 2 $; as informações de Fisher são

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ sigma ^ 2} \\ \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ parcial \ beta_1} \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ sigma ^ 2} \\ \ tfrac {\ parcial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ parcial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_0 \ parcial \ beta_1} & \ tfrac {\ parcial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_0 \ parcial \ sigma ^ 2} \\ \ tfrac {\ parcial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_1 \ parcial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ parcial \ beta_1 \ parcial \ sigma ^ 2} \\ \ tfrac {\ parcial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ parcial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ parcial \ beta_1} & \ tfrac {\ parcial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ parcial \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

onde $ \ ell (\ cdot) $ é a função log-verossimilhança dos parâmetros. (Observe que $ x $ pode ser uma variável fictícia indicando um tratamento específico.)

Comentários

  • Perfeito – isso ‘ é exatamente o que eu precisava. Eu ‘ meditarei sobre isso durante a noite e verei se preciso de algum esclarecimento – posso ‘ detectar algum agora – mas esta resposta já aborda todos os cenários variados que mencionei acima, de uma só vez. Obrigado
  • A estrutura do exemplo de @Scortchi ‘ mostra claramente como a fórmula de Fisher com a qual vinculei precisa de apenas dois subscritos de matriz – i e j – para acomodar qualquer número de parâmetros e valores. Cada não diagonal na matriz superior tem exatamente dois termos no dividendo; em vez de adicionar ou subtrair termos de cada dividendo, cada combinação única de parâmetros adiciona ou subtrai linhas e colunas da matriz. A maior parte da literatura publicada não ‘ deixa essa importante distinção clara, o que me levou à confusão.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *