Care este o explicație intuitivă a motivului pentru care ne dorim homoskedasticitate într-o regresie?

Am citit că homoskedasticitatea înseamnă că deviația standard a termenilor de eroare sunt consistente și nu depinde de valoarea x.

Întrebarea 1: Poate cineva să explice intuitiv de ce este necesar acest lucru? (Un exemplu aplicat ar fi grozav!)

Întrebarea 2: Nu-mi amintesc niciodată dacă „este hetero- sau homo- idealul. Poate cineva să explice logica ideală?

Întrebarea 3: Heteroskedasticitatea înseamnă că x este corelat cu erorile. Poate cineva să explice de ce este rău?

Grafic de * homo- * vs. * heteroskedasticity *

Comentarii

” Heteroskedasticity înseamnă că x este corelat cu erorile ” – ce vă determină să spuneți acest lucru?
Sugestie: homoscedasticitatea este simplu de descris: necesită doar un parametru (pentru varianța comună). Cum ați descrie un model heteroscedastic ?

Răspuns

Homoskedasticity înseamnă că varianțele tuturor observațiilor sunt identice una cu cealaltă, heteroskedasticity înseamnă că „sunt diferite. Este posibil ca dimensiunea varianțelor să afișeze o tendință relativă la x, dar nu este strict necesar; așa cum se arată în diagrama însoțitoare, variațiile care sunt diferit dimensionate într-un mod aleatoriu de la punct la punct se vor califica la fel de bine. Date homoskedastic vs. heteroskedastic

Sarcina regresiei este de a estima o curbă optimă care trece cât mai aproape de cât mai multe puncte de date posibil. În cazul datelor heteroskedastice, prin definiție, unele puncte vor fi în mod natural mult mai răspândite decât altele. Dacă regresia tratează pur și simplu toate punctele de date în mod echivalent, cele cu cea mai mare varianță vor tinde să aibă o influență nejustificată în selectarea curbei de regresie optimă, prin „tragerea” curbei de regresie către ele însele, pentru a atinge obiectivul de a minimiza dispersia generală a punctelor de date despre curba de regresie finală.

Această problemă poate fi ușor depășită prin simpla ponderare a fiecărui punct de date în proporție inversă cu varianța sa. Aceasta presupune, totuși, că cineva știe varianța asociată cu fiecare punct individual. Adesea, nu se face. Astfel, motivul pentru care datele homoskedastice sunt preferate este că sunt mai simple și mai ușor de tratat – puteți obține răspunsul „corect” pentru curba de regresie fără a cunoaște neapărat variațiile subiacente ale punctelor individuale. , deoarece greutățile relative dintre puncte într-un anumit sens se vor „anula” dacă oricum sunt toate la fel.

EDIT:

Un comentator îmi cere să explic ideea că individul punctele pot avea propriile lor variante, unice, diferite. O fac cu un experiment de gândire. Să presupunem că vă rog să măsurați greutatea față de lungimea unei grămezi de animale diferite, de la mărimea unui muscă până la dimensiune a unui elefant. Faceți acest lucru, trasând lungimea pe axa x și greutatea pe axa y. Dar să ne oprim pentru o clipă pentru a lua în considerare lucrurile puțin mai detaliat. Să vedem valorile de greutate în mod specific – cum le-ați obținut de fapt? Nu puteți folosi același dispozitiv fizic de măsurare pentru a cântări un muscă ca pentru a cântări un animal de casă și nici nu puteți utiliza același dispozitiv pentru cântărește un animal de casă așa cum ai face pentru a cântări un elefant. Pentru muscă, probabil va trebui să folosiți ceva de genul echilibru chimic analitic , precis până la 0,0001 g, în timp ce pentru animalul de companie, folosiți un cântar de baie, care ar putea fi exact la aproximativ jumătate de lire sterline (aproximativ 200 g), în timp ce pentru elefant puteți utiliza un camion de genul cântărire , care ar putea fi precisă până la +/- 10 kg. Ideea este că toate aceste dispozitive au precizii inerente diferite – acestea vă indică greutatea până la un anumit număr de cifre semnificative și după că nu poți să știi cu siguranță. Diferitele dimensiuni ale barelor de eroare din graficul heteroskedastic de mai sus, pe care le asociem cu diferențele diferite ale punctelor individuale, reflectă diferite grade de certitudine cu privire la măsurătorile subiacente. Pe scurt, diferite puncte pot avea variații diferite, deoarece uneori nu putem măsura toate punctele la fel de bine – nu veți cunoaște niciodată greutatea unui elefant până la +/- 0.0001 g, deoarece nu puteți obține acest tip de acuratețe dintr-un cântar de camion. Dar puteți cunoaște greutatea unui muscă la +/- 0,0001 g, deoarece puteți obține acea precizie pe un bilanț chimic analitic.(Din punct de vedere tehnic, în acest experiment de gândire special, apare același tip de problemă și pentru măsurarea lungimii, dar tot ceea ce înseamnă cu adevărat este că, dacă am decide să trasăm bare de eroare orizontale reprezentând incertitudini și în valorile axei x, acestea ar fi au dimensiuni diferite și pentru puncte diferite.)

Comentarii

Ar fi frumos dacă explicați și amănunțit ce este ” varianța unui punct / observație „. Fără ea, un cititor se poate simți nemulțumit și obiectează: cum poate o singură observație a unui eșantion să aibă propria măsură de variație?

Răspuns

De ce vrem homoskedasticitate în regresie?

Nu este că vrem homoskedasticitatea sau heteroskedasticitatea în regresie; ceea ce vrem este ca modelul să reflecte proprietățile reale ale datelor . Modelele de regresie pot fi formulate fie cu o presupunere de homoskedasticitate, sau cu o presupunere de heteroskedasticitate, într-o formă specificată. Vrem să formulăm un model de regresie care să se potrivească cu proprietățile reale ale datelor și, astfel, să reflecte o specificație rezonabilă a comportamentului datelor provenite din procesul observat.

Astfel, dacă varianța abaterii răspunsului de la așteptarea sa (termenul de eroare) este fixă (adică este homoskedastică) atunci vrem un model care să reflecte acest lucru. Și dacă t Varianța abaterii răspunsului de la așteptarea acestuia (termenul de eroare) depinde de variabila explicativă (de exemplu, este heteroskedastică), atunci vrem un model care să reflecte acest lucru . Dacă specificăm greșit modelul (de exemplu, utilizând un model homoskedastic pentru datele heteroskedastic), atunci aceasta înseamnă că vom specifica greșit varianța termenului de eroare. Rezultatul este că estimarea noastră despre funcția de regresie va penaliza subestimarea unor erori și a penaliza excesiv alte erori și va tinde să funcționeze mai slab decât dacă specificăm corect modelul.

Răspuns

Pe lângă celelalte răspunsuri excelente:

Poate cineva să explice intuitiv de ce este necesar acest lucru ? (Un exemplu aplicat ar fi grozav!)

Varianța constantă nu este „t necesară , dar atunci când deține modelare și analiză este O parte din aceasta trebuie să fie istorică, analiza atunci când varianța nu este constantă este mai complicată, necesită mai multe calcule! Așadar, s-au dezvoltat metode (transformări) pentru a ajunge la o situație în care variația constantă este valabilă și ar putea fi utilizate metodele mai simple / mai rapide. există mai multe metode alternative, iar calculul rapid nu este la fel de important pe cât a fost. Dar simplitatea este încă de valoare! Partea este tehnică / matematică. Modelele cu varianță neconstantă nu au auxiliare exacte (vezi aici .) Deci este posibilă doar inferența aproximativă. Varianța neconstantă în problema celor două grupuri este celebra problemă Behrens-Fisher .

Dar este chiar mai profundă decât atât. Să ne uităm la cel mai simplu exemplu, comparând mijloacele a două grupuri cu un (o variantă a) testului t. Ipoteza nulă este că grupurile sunt egale. Spuneți că acesta este un experiment randomizat cu un grup de tratament și control. Dacă dimensiunile grupurilor sunt rezonabile, randomizarea ar trebui să facă grupurile egale (înainte de tratament.) Presupunerea constantă a varianței spune că tratamentul (dacă funcționează deloc) influențează doar media, nu varianța. Dar cum ar putea influența varianța? Dacă tratamentul funcționează în mod egal la toți membrii grupului de tratament, ar trebui să aibă mai mult sau mai puțin același efect pentru toți, grupul este doar mutat. Deci, varianța inegală ar putea însemna că tratamentul are un efect diferit pentru unii membri ai grupului de tratament decât alții. Spuneți, dacă are un efect pentru jumătate din grup și un efect mult mai puternic pentru cealaltă jumătate, varianța va crește împreună cu media! Deci, ipoteza varianței constante este într-adevăr o ipoteză despre omogenitatea efectelor individuale ale tratamentului . Când acest lucru nu este valabil, ar trebui să ne așteptăm ca analiza să devină mai complicată. Consultați aici . Apoi, cu variații inegale, ar putea fi, de asemenea, interesant să ne întrebăm despre motivele sale, mai ales dacă tratamentul ar putea avea ceva de-a face cu el. Dacă da, această postare ar putea fi de interes .

Întrebarea 2: Pot nu vă amintiți niciodată dacă este „hetero- sau homo- ideal”. Poate cineva să explice logica careia este ideală?

Nimeni nu este ideal , trebuie să modelați situația pe care o aveți! Dar dacă aceasta este o întrebare despre amintirea semnificației celor două cuvinte amuzante, preferați-le la sex și îți vei aminti.

Întrebarea 3: Heteroskedasticitatea înseamnă că x este corelat cu erorile. Poate cineva să explice de ce este rău?

Înseamnă că distribuția condiționată a erorilor date $ x $ , variază în funcție de $ x $ . Nu este „t rău , ci doar complică viața. Dar s-ar putea face viața interesantă, ar putea fi un semnal că se întâmplă ceva interesant.

Răspuns

Una dintre ipotezele de regresie OLS este:

Varianța termenului de eroare / rezidual este constantă. Această presupunere este cunoscut sub numele de homoskedasticity .

Această presupunere asigură că, odată cu modificarea observațiilor, variațiile în termenul de eroare nu ar trebui să se schimbe

Dacă această condiție este încălcată, estimatorii obișnuiți de pătrat minim ar fi totuși liniari, imparțiali și consecvenți, cu toate acestea, acești estimatori nu ar mai fi eficienți .

De asemenea, estimările erorii standard vor deveni părtinitoare și nesigur

în prezența heteroskedasticității care duce la o problemă în testarea ipotezelor despre estimatori .

În rezumat, în absența homoscedasticității, avem estimatori liniari și imparțiali, dar nu ALBASTRU (cei mai buni estimatori liniari imparțiali)

[Citește teorema lui Gauss Markov]

Sper că acum este clar că, în mod ideal, avem nevoie de homoskedasticitate în modelul nostru.
Dacă termenul de eroare este corelat cu y sau y prezis sau oricare dintre xi; indică faptul că predictorii noștri nu au făcut treaba de a explica corect variația în „y”.

Cumva, specificația modelului nu este corectă sau există alte probleme.

Sper că vă va ajuta! Încerc să scriu un exemplu intuitiv în curând.

Comentarii

Răspuns

Comentarii

Răspuns

Răspuns

Răspuns

Lasă un răspuns Anulează răspunsul