Qual é uma explicação intuitiva de por que queremos homoscedasticidade em uma regressão?

Li que homocedasticidade significa que o desvio padrão dos termos de erro são consistentes e não dependem do valor x.

Pergunta 1: alguém pode explicar intuitivamente por que isso é necessário? (Um exemplo aplicado seria ótimo!)

Pergunta 2: Nunca consigo me lembrar se é hetero ou homo- que é o ideal. Alguém pode explicar a lógica de qual é o ideal?

Pergunta 3: Heteroscedasticidade significa que x está correlacionado com os erros. Alguém pode explicar por que isso é ruim?

Gráfico de * homo- * vs. * heteroscedasticidade *

Comentários

” Heteroscedasticidade significa que x está correlacionado com os erros ” – o que o leva a dizer isso?
Dica: a homocedasticidade é simples de descrever: requer apenas um parâmetro (para a variância comum). Como você descreveria um modelo heterocedástico ?

Resposta

Homoscedasticidade significa que as variâncias de todas as observações são idênticas umas às outras, heteroscedasticidade significa que são diferentes. É possível que o tamanho das variâncias exiba alguma tendência em relação a x, mas não é estritamente necessário; conforme mostrado no diagrama a seguir, as variações com tamanhos diferentes de forma aleatória de um ponto a outro também se qualificam. Dados homocedásticos vs. heterocedásticos

O trabalho da regressão é estimar uma curva ótima que passa o mais próximo possível de tantos pontos de dados quanto possível. No caso de dados heteroscedásticos, por definição alguns pontos serão naturalmente muito mais dispersos do que outros. Se a regressão simplesmente trata todos os pontos de dados de forma equivalente, aqueles com a maior variância tenderão a ter influência indevida na seleção da curva de regressão ótima, “arrastando” a curva de regressão em direção a eles, a fim de atingir o objetivo de minimizar o dispersão geral dos pontos de dados sobre a curva de regressão final.

Esse problema pode ser facilmente superado simplesmente ponderando cada ponto de dados na proporção inversa de sua variância. Isso pressupõe, no entanto, que se conhece a variação associada a cada ponto individual. Muitas vezes, não. Assim, a razão pela qual os dados homocedásticos são preferidos é porque eles são mais simples e fáceis de lidar – você pode obter a resposta “correta” para a curva de regressão sem necessariamente saber as variâncias subjacentes dos pontos individuais , porque os pesos relativos entre os pontos, em certo sentido, serão “cancelados” se forem todos iguais de qualquer maneira.

EDITAR:

Um comentarista me pede para explicar a ideia de que o indivíduo os pontos podem ter suas próprias variâncias diferentes. Eu faço isso com um experimento mental. Suponha que eu lhe peça para medir o peso em relação ao comprimento de um grupo de animais diferentes, do tamanho de um mosquito até o tamanho de um elefante. Você faz isso, plotando o comprimento no eixo xe o peso no eixo y. Mas vamos fazer uma pausa para considerar as coisas com mais detalhes. Vejamos os valores de peso especificamente – como você realmente os obteve? Você não pode usar o mesmo dispositivo de medição física para pesar um mosquito que faria para pesar um animal de estimação, nem pode usar o mesmo dispositivo para pese um animal doméstico da mesma forma que pesaria um elefante. Para o mosquito, você provavelmente terá que usar algo como uma balança química analítica , com precisão de 0,0001 g, enquanto para o animal doméstico, você “d use uma balança de banheiro, que pode ter precisão de cerca de meio quilo ou mais (cerca de 200 g), enquanto para o elefante, você pode usar algo como um caminhão escala , que só pode ter uma precisão de +/- 10 kg. O fato é que todos esses dispositivos têm diferentes precisões inerentes – eles apenas informam o peso até um determinado número de dígitos significativos, e depois que você realmente não pode saber com certeza. Os diferentes tamanhos das barras de erro no gráfico heteroscedástico acima, que associamos às diferentes variâncias dos pontos individuais, refletem diferentes graus de certeza sobre as medições subjacentes. Em suma, pontos diferentes podem ter variâncias diferentes porque às vezes não podemos medir todos os pontos igualmente bem – você nunca vai saber o peso de um elefante até +/- 0,0001 g, porque você não consegue esse tipo de precisão de uma balança de caminhão. Mas você pode saber o peso de um mosquito com +/- 0,0001 g, porque você pode obter esse tipo de precisão em uma balança química analítica.(Tecnicamente, neste experimento de pensamento específico, o mesmo tipo de problema realmente surge para a medição do comprimento também, mas tudo o que realmente significa é que se decidíssemos plotar barras de erro horizontais representando incertezas nos valores do eixo x também, têm tamanhos diferentes para pontos diferentes também.)

Comentários

Seria bom se você explicasse, e completamente, o que é ” variação de um ponto / observação “. Sem isso, o leitor pode se sentir insatisfeito e questionar: como uma única observação de uma amostra pode ter sua própria medida de variação?

Resposta

Por que queremos homocedasticidade na regressão?

Não é que queremos homocedasticidade ou heterocedasticidade na regressão; o que queremos é que o modelo reflita as propriedades reais dos dados . Os modelos de regressão podem ser formulados com uma suposição de homocedasticidade, ou com uma suposição de heterocedasticidade, de alguma forma especificada. Queremos formular um modelo de regressão que se ajuste às propriedades reais dos dados e, assim, reflita uma especificação razoável do comportamento dos dados provenientes do processo observado.

Assim, se a variância do desvio da resposta de sua expectativa (o termo de erro) for fixa (ou seja, for homocedástica), então queremos um modelo que reflita isso. E se t A variância do desvio da resposta de sua expectativa (o termo de erro) depende da variável explicativa (ou seja, é heterocedástica), então queremos um modelo que reflita isso . Se especificarmos incorretamente o modelo (por exemplo, usando um modelo homocedástico para dados heterocedásticos), isso significa que especificaremos incorretamente a variância do termo de erro. O resultado é que nossa estimativa da função de regressão penalizará menos alguns erros e penalizará em excesso outros erros, e tenderá a ter um desempenho pior do que se especificarmos o modelo corretamente.

Resposta

Além das outras respostas excelentes:

Alguém pode explicar intuitivamente por que isso é necessário ? (Um exemplo aplicado seria ótimo!)

Variância constante não é necessária , mas quando contém modelagem e análise é mais simples. Parte disso deve ser histórico, a análise quando a variância não é constante é mais complicada, requer mais computação! Portanto, desenvolveu-se métodos (transformações) para chegar a uma situação em que a variância constante se mantém e os métodos mais simples / rápidos podem ser usados. existem mais métodos alternativos e a computação rápida não é tão importante quanto antes. Mas a simplicidade ainda tem valor! A parte é técnica / matemática. Os modelos com variação não constante não têm auxiliares exatos (consulte aqui .) Portanto, apenas inferência aproximada é possível. A variância não constante no problema de dois grupos é o famoso problema de Behrens-Fisher .

Mas é ainda mais profundo do que isso. Vejamos o exemplo mais simples, comparando as médias de dois grupos com um (alguma variante de) teste t. A hipótese nula é que os grupos são iguais. Digamos que este seja um experimento randomizado com um grupo de tratamento e controle. Se o tamanho dos grupos for razoável, a randomização deve tornar os grupos iguais (antes do tratamento). A suposição de variância constante diz que o tratamento (se funcionar) influencia apenas a média, não a variância. Mas como isso poderia influenciar a variação? Se o tratamento realmente funcionar igualmente em todos os membros do grupo de tratamento, deve ter mais ou menos o mesmo efeito para todos, o grupo é apenas deslocado. Portanto, a variação desigual pode significar que o tratamento tem efeito diferente para alguns membros do grupo de tratamento do que para outros. Digamos que se tiver algum efeito para metade do grupo e um efeito muito mais forte para a outra metade, a variância aumentará junto com a média! Portanto, a suposição de variância constante é realmente uma suposição sobre a homogeneidade dos efeitos do tratamento individual . Quando isso não se sustenta, deve-se esperar que a análise fique mais complicada. Veja aqui . Então, com variâncias desiguais, também pode ser interessante perguntar sobre as razões para isso, especificamente se o tratamento pode ter algo a ver com isso. Nesse caso, esta postagem pode ser do seu interesse .

Pergunta 2: Posso nunca se lembra se é hetero ou homo que é ideal. Alguém pode explicar a lógica de qual é o ideal?

Ninguém é ideal , você deve modelar a situação que você tem! Mas se esta é uma questão sobre como lembrar o significado dessas duas palavras engraçadas, apenas adicione-as antes de sexo e você vai se lembrar.

Pergunta 3: Heteroscedasticidade significa que x está correlacionado com os erros. Alguém pode explicar por que isso é ruim?

Isso significa que a distribuição condicional dos erros dada $ x $ , varia com $ x $ . Isso não é ruim , apenas torna a vida complicada. Mas pode apenas tornar a vida interessante, pode ser um sinal de que algo interessante está acontecendo.

Resposta

Uma das suposições da regressão OLS é:

A variância do termo de erro / residual é constante. Esta suposição é conhecido como homoscedasticidade .

Essa suposição garante que, com a mudança nas observações, as variações no o termo de erro não deve mudar

Se esta condição for violada, os estimadores de mínimos quadrados comuns ainda seriam lineares, imparciais e consistentes, entretanto, esses estimadores não seriam mais eficientes .

Além disso, as estimativas de erro padrão se tornariam tendenciosas e não confiável

na presença de heteroscedasticidade que leva a um problema no teste de hipótese sobre estimadores .

Em resumo, na ausência de homocedasticidade, temos estimadores lineares e imparciais, mas não AZUIS (melhores estimadores lineares imparciais)

[Leia o teorema de Gauss Markov]

Espero que agora esteja claro que, idealmente, precisamos de homoscedasticidade em nosso modelo.
Se o termo de erro estiver correlacionado com y ou y previsto ou qualquer um dos xis; indica que nosso (s) preditor (es) não fizeram o trabalho de explicar a variação em y corretamente.

De alguma forma, a especificação do modelo não está correta ou alguns outros problemas estão lá.

Espero que ajude! Tentarei escrever um exemplo intuitivo em breve.

Comentários

Resposta

Comentários

Resposta

Resposta

Resposta

Deixe uma resposta Cancelar resposta