Jai lu que lhomoscédasticité signifie que lécart type des termes derreur est cohérent et ne dépend pas de la valeur x.

Question 1: Quelquun peut-il expliquer intuitivement pourquoi cela est nécessaire? (Un exemple appliqué serait génial!)

Question 2: Je ne me souviens jamais si cest hétéro ou homo qui est idéal. Quelquun peut-il expliquer quelle logique est idéale?

Question 3: Lhétéroscédasticité signifie que x est corrélé aux erreurs. Quelquun peut-il expliquer pourquoi cest mauvais?

Graphique de * homo- * vs * hétéroscédasticité *

Commentaires

  •  » Lhétéroscédasticité signifie que x est corrélé aux erreurs  » – quest-ce qui vous amène à dire cela?
  • Astuce: lhomoscédasticité est simple à décrire: elle ne nécessite quun seul paramètre (pour la variance commune). Comment décririez-vous un modèle hétéroscédastique ?

Réponse

Lhomoscédasticité signifie que les variances de toutes les observations sont identiques les unes aux autres, lhétéroscédasticité signifie quelles « sont différentes. Il est possible que la taille des variances affiche une certaine tendance par rapport à x, mais ce nest pas strictement nécessaire; comme indiqué dans le diagramme ci-joint, les variances qui sont de taille différente de manière aléatoire dun point à lautre seront également qualifiées. Données homoscédastiques vs hétéroscédastiques

Le travail de la régression est destimer une courbe optimale qui passe le plus près possible du plus grand nombre de points de données. Dans le cas des données hétéroscédastiques, par définition certains points seront naturellement beaucoup plus dispersés que dautres. Si la régression traite simplement tous les points de données de manière équivalente, ceux avec la plus grande variance auront tendance à avoir une influence indue sur le choix de la courbe de régression optimale, en « traînant » la courbe de régression vers eux-mêmes, afin datteindre lobjectif de minimiser la dispersion globale des points de données sur la courbe de régression finale.

Ce problème peut être facilement surmonté en pondérant simplement chaque point de données en proportion inverse de sa variance. Cela suppose cependant que lon connaisse la variance associée à chaque point individuel. Souvent, ce nest pas le cas. Ainsi, la raison pour laquelle les données homoscédastiques sont préférées est quelles sont plus simples et plus faciles à traiter – vous pouvez obtenir la réponse «correcte» pour la courbe de régression sans nécessairement connaître les variances sous-jacentes des différents points , parce que les poids relatifs entre les points dans un certain sens «sannuleront» sils sont tous identiques de toute façon.

MODIFIER:

Un commentateur me demande dexpliquer lidée que cet individu les points peuvent avoir leurs propres variances uniques. Je le fais avec une expérience de pensée. Supposons que je vous demande de mesurer le poids par rapport à la longueur dun groupe danimaux différents, de la taille dun moucheron à la taille Vous faites ainsi, en traçant la longueur sur laxe des x et le poids sur laxe des y. Mais arrêtons-nous un instant pour examiner les choses un peu plus en détail. Examinons spécifiquement les valeurs de poids – comment les avez-vous réellement obtenues? Vous ne pouvez pas utiliser le même appareil de mesure physique pour peser un moucheron que vous le feriez pour peser un animal domestique, ni utiliser le même appareil pour pesez un animal domestique comme vous le feriez pour un éléphant. Pour le moucheron, vous allez probablement devoir utiliser quelque chose comme une balance de chimie analytique , précise jusquà 0,0001 g, tandis que pour lanimal domestique, vous « d utilisez un pèse-personne dont la précision peut atteindre environ une demi-livre (environ 200 g), tandis que pour léléphant, vous pouvez utiliser quelque chose comme un camion , dont la précision ne peut être que de +/- 10 kg. Le fait est que tous ces appareils ont des précisions inhérentes différentes – ils ne vous indiquent le poids que jusquà un certain nombre de chiffres significatifs, et après que vous ne pouvez pas vraiment savoir avec certitude. Les différentes tailles des barres derreur dans le graphique hétéroskédastique ci-dessus, que nous associons aux différentes variances des points individuels, reflètent différents degrés de certitude sur les mesures sous-jacentes. En bref, différents points peuvent avoir des variances différentes car parfois nous ne pouvons pas mesurer tous les points de la même manière – vous nallez jamais connaître le poids dun éléphant jusquà +/- 0,0001 g, car vous ne pouvez pas obtenir mais vous pouvez connaître le poids dun moucheron à +/- 0,0001 g, car vous pouvez obtenir ce genre de précision sur une balance de chimie analytique.(Techniquement, dans cette expérience de pensée particulière, le même type de problème se pose également pour la mesure de la longueur, mais tout cela signifie vraiment que si nous décidons de tracer des barres derreur horizontales représentant les incertitudes dans les valeurs de laxe des x également, celles-ci seraient ont des tailles différentes pour différents points également.)

Commentaires

  • Ce serait bien si vous expliquiez, et en profondeur, ce que signifie  » variance dun point / observation « . Sans elle, un lecteur peut se sentir insatisfait et objecter: comment une seule observation dun échantillon peut-elle avoir sa propre mesure de variation?

Réponse

Pourquoi voulons-nous lhomoscédasticité dans la régression?

Ce nest pas que nous voulons homoscédasticité ou hétéroscédasticité dans la régression; ce que nous voulons, cest que le modèle reflète les propriétés réelles des données . Les modèles de régression peuvent être formulés soit avec une hypothèse de homoscédasticité, ou avec une hypothèse dhétéroscédasticité, sous une forme spécifiée. Nous souhaitons formuler un modèle de régression qui correspond aux propriétés réelles des données et reflète ainsi une spécification raisonnable du comportement des données issues du processus observé.

Ainsi, si la variance de lécart de la réponse par rapport à son espérance (le terme derreur) est fixe (cest-à-dire homoscédastique), alors nous voulons un modèle qui reflète cela. Et si t La variance de lécart de la réponse par rapport à son espérance (le terme derreur) dépend de la variable explicative (cest-à-dire quelle est hétéroscédastique) alors nous voulons un modèle qui reflète ceci . Si nous spécifions mal le modèle (par exemple, en utilisant un modèle homoscédastique pour les données hétéroscédastiques), cela signifie que nous allons mal spécifier la variance du terme derreur. Le résultat est que notre estimation de la fonction de régression sous-pénalisera certaines erreurs et sur-pénalisera d’autres erreurs, et aura tendance à être moins performante que si nous spécifions le modèle correctement.

Réponse

En plus des autres excellentes réponses:

Quelquun peut-il expliquer intuitivement pourquoi cela est nécessaire ? (Un exemple appliqué serait génial!)

La variance constante nest pas « t nécessaire , mais quand elle contient la modélisation et lanalyse est Une partie de cela doit être historique, lanalyse lorsque la variance nest pas constante est plus compliquée, nécessite plus de calculs! Donc, on a développé des méthodes (transformations) pour arriver à une situation où la variance constante est vraie et les méthodes plus simples / plus rapides pourraient être utilisées. Aujourdhui il existe plus de méthodes alternatives, et le calcul rapide nest pas aussi important quil létait. Mais la simplicité a toujours de la valeur! Une partie est technique / mathématique. Les modèles à variance non constante nont pas d auxiliaires exacts (voir ici .) Ainsi, seule une inférence approximative est possible. La variance non constante du problème à deux groupes est le fameux problème de Behrens-Fisher .

Mais cest encore plus profond que cela. Regardons lexemple le plus simple, comparant les moyennes de deux groupes avec un (une variante de) test t. Lhypothèse nulle est que les groupes sont égaux. Disons quil sagit dune expérience randomisée avec un groupe de traitement et de contrôle. Si la taille des groupes est raisonnable, la randomisation devrait rendre les groupes égaux (avant le traitement). Lhypothèse de la variance constante dit que le traitement (sil fonctionne du tout), ninfluence que la moyenne, pas la variance. Mais comment pourrait-il influencer la variance? Si le traitement fonctionne vraiment de manière égale sur tous les membres du groupe de traitement, il devrait avoir plus ou moins le même effet pour tous, le groupe est simplement déplacé. Une variance donc inégale pourrait signifier que le traitement a un effet différent pour certains membres du groupe de traitement par rapport à dautres. Disons que si cela a un effet pour la moitié du groupe et un effet beaucoup plus fort pour lautre moitié, la variance augmentera avec la moyenne! Lhypothèse de variance constante est donc en réalité une hypothèse sur lhomogénéité des effets de traitement individuels . Quand cela ne tient pas, il faut sattendre à ce que lanalyse devienne plus compliquée. Voir ici . Ensuite, avec des variances inégales, il pourrait également être intéressant de senquérir des raisons, en particulier si le traitement pouvait avoir quelque chose à voir avec cela. Si tel est le cas, ce message pourrait vous intéresser .

Question 2: Je peux ne me souviens jamais si cest un hétéro ou un homo qui est idéal. Quelquun peut-il expliquer la logique de laquelle on est idéal?

Personne ne lest idéal , vous devez modéliser la situation que vous avez! Mais sil sagit de se souvenir de la signification de ces deux mots amusants, ajoutez-les simplement à sexe et vous vous en souviendrez.

Question 3: Lhétéroscédasticité signifie que x est corrélé aux erreurs. Quelquun peut-il expliquer pourquoi cest mauvais?

Cela signifie que la distribution conditionnelle des erreurs données $ x $ , varie selon $ x $ . Ce nest pas mauvais , cela complique simplement la vie. Mais cela pourrait simplement rendre la vie intéressante, cela pourrait être le signe que quelque chose dintéressant se passe.

Réponse

Lune des hypothèses de la régression OLS est:

La variance du terme derreur / résidu est constante. Cette hypothèse est connue sous le nom de homoscédasticité .

Cette hypothèse garantit quavec le changement des observations, les variations le terme derreur ne doit pas changer

  1. Si cette condition nest pas respectée, les estimateurs des moindres carrés ordinaires seraient toujours linéaires, sans biais et cohérents, cependant, ces estimateurs ne seraient plus efficaces .

De plus, les estimations de lerreur standard deviendraient biaisées et peu fiable

en présence dhétéroscédasticité qui conduit à un problème de test dhypothèse sur les estimateurs .

En résumé, en labsence dhomoscédasticité, nous avons des estimateurs linéaires et sans biais mais pas BLUE (meilleurs estimateurs linéaires sans biais)

[Lire le théorème de Gauss Markov]

  1. Jespère maintenant quil est clair quidéalement, nous avons besoin dhomoscédasticité dans notre modèle.

  2. Si le terme derreur est corrélé avec y ou y prédit ou lun des xi; cela indique que nos prédicteurs n’ont pas fait le travail d’expliquer correctement la variation de «y».

Dune manière ou dune autre, la spécification du modèle nest pas correcte ou dautres problèmes sont là.

Jespère que cela aide! Jessaierai bientôt décrire un exemple intuitif.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *