Mikä on intuitiivinen selitys sille, miksi haluamme homoskedastiikan regressiossa?

Olen lukenut, että homoskedastisuus tarkoittaa, että virhetermien keskihajonta on johdonmukainen eikä riippu x-arvosta.

Kysymys 1: Voiko joku selittää intuitiivisesti, miksi tämä on välttämätöntä? (Käytetty esimerkki olisi hieno!)

Kysymys 2: En koskaan muista, onko se hetero- vai homo- ihanteellinen. Voisiko joku selittää, mikä logiikka on ihanteellinen?

Kysymys 3: Heteroskedastisuus tarkoittaa, että x korreloi virheiden kanssa. Voisiko joku selittää, miksi tämä on huono?

Kuvaaja * homo- * vs. * heteroskedastiilisuudesta *

Kommentit

” Heteroskedastisuus tarkoittaa, että x korreloi virheiden kanssa ” – mikä saa sinut sanomaan tämän?
Vihje: homoscedastisuutta on helppo kuvata: se vaatii vain yhden parametrin (tavalliselle varianssille). Kuinka kuvailisit heteroscedastista mallia?

Vastaus

Homoskedastisuus tarkoittaa, että kaikkien havaintojen varianssit ovat identtiset, heteroskedastiivisuus tarkoittaa, että ne ovat erilaisia. On mahdollista, että varianssien koko näyttää jonkin verran suuntausta suhteessa x, mutta se ei ole ehdottoman välttämätöntä; kuten oheisessa kaaviossa on esitetty, varianssit, jotka ovat erikokoisia jollakin satunnaisella tavalla pisteestä pisteeseen, ovat yhtä hyviä. Homoskedastic vs. heteroskedastic data

Regression tehtävänä on arvioida optimaalinen käyrä, joka kulkee mahdollisimman lähellä mahdollisimman monta datapistettä. Heteroskedastisten tietojen tapauksessa jotkut kohdat ovat luonnostaan hajautuneet paljon laajemmin kuin toiset. Jos regressio yksinkertaisesti käsittelee kaikkia datapisteitä vastaavasti, niillä, joilla on suurin varianssi, on taipumus olla tarpeettomia vaikutuksia optimaalisen regressiokäyrän valinnassa ”vetämällä” regressiokäyrää itseään kohti tavoitteen saavuttamiseksi minimoida lopullisen regressiokäyrän datapisteiden kokonaishajonta.

Tämä ongelma voidaan helposti voittaa yksinkertaisesti punnitsemalla kukin datapiste käänteisessä suhteessa sen varianssiin. Tämä olettaa kuitenkin, että yksi tietää kuhunkin yksittäiseen pisteeseen liittyvän varianssin. Usein ei ”t”. Siksi homoskedastisten tietojen suosiminen johtuu siitä, että ne ovat yksinkertaisempia ja helpompia käsitellä – saat ”oikean” vastauksen regressiokäyrälle tuntematta välttämättä yksittäisten pisteiden taustalla olevia variansseja , koska pisteiden väliset suhteelliset painotukset jossakin mielessä ”peruuttavat”, jos ne ovat joka tapauksessa samat.

MUOKKAA:

Kommentoija pyytää minua selittämään ajatuksen, pisteillä voi olla omat, ainutlaatuiset, erilaiset varianssit. Teen niin ajatuskokeella. Oletetaan, että pyydän sinua mittaamaan joukon erilaisten eläinten paino vs. pituus, hyttisen koosta aina kokoon asti. Teet niin, piirtämällä pituus x-akselille ja paino y-akselille. Mutta anna hetken pysähtyä miettimään asioita hieman yksityiskohtaisemmin. Katsotaanpa tarkasti painoarvoja – miten ne todella hankit? Et voi mahdollisesti käyttää samaa fyysistä mittauslaitetta hyttynen punnitsemiseen kuin kotieläimen punnitsemiseen, etkä voi käyttää samaa laitetta punnitse lemmikkieläin samalla tavalla kuin punnita norsu. Hyttysen suhteen sinun on todennäköisesti käytettävä jotain analyyttisen kemian tasapainoa , tarkkuus 0,0001 g, kun taas kotieläimen ”d käytä kylpyhuoneen vaakaa, jonka tarkkuus voi olla noin puoli kiloa (noin 200 g), kun taas norsuille saatat käyttää jotain kuorma-autoa asteikko , joka voi olla tarkkuus vain +/- 10 kg: n tarkkuudella. Tarkoituksena on, että kaikilla näillä laitteilla on erilaiset tarkkuudet – ne kertovat sinulle painon vain tiettyyn määrään merkittäviä numeroita ja jota et todellakaan voi tietää varmasti. Yllä olevan heteroskedastisen käyrän virhepalkkien eri koot, jotka yhdistämme yksittäisten pisteiden erilaisiin variansseihin, heijastavat erilaista varmuusastetta taustalla olevista mittauksista. Lyhyesti sanottuna, eri pisteillä voi olla erilaisia variansseja, koska joskus emme voi mitata kaikkia pisteitä yhtä hyvin – et koskaan tiedä norsun painoa +/- 0,0001 g, koska et voi saada sellainen tarkkuus kuorma-autojen mittakaavassa. Mutta voit tietää, että hyttysen paino on +/- 0,0001 g, koska voit saada tällaisen tarkkuuden analyyttisen kemian tasapainolla.(Teknisesti tässä nimenomaisessa ajatuskokeessa samantyyppinen kysymys nousee esiin myös pituuden mittauksessa, mutta kaikki, mikä todella tarkoittaa, on, että jos päätämme piirtää vaakasuuntaiset virhepalkit, jotka edustavat epävarmuustekijöitä myös x-akselin arvoissa, ne myös eri pisteet eri pisteille.)

Kommentit

Olisi mukavaa, jos selität ja perusteellisesti, mikä on ” pisteen / havainnon varianssi ”. Ilman sitä lukija voi tuntea olevansa tyytymätön ja vastustaa sitä: miten yhdellä näytteen havainnolla voi olla oma vaihtelumittansa?

Vastaus

Miksi haluamme homoskedastiikan regressiossa?

Ei ” että haluamme homoskedastiikan tai heteroskedastiikan regressiossa; haluamme mallin heijastavan datan todellisia ominaisuuksia . Regressiomallit voidaan muotoilla joko oletuksella homoskedastiikka tai olettaen heteroskedastisuus, jossain määrätyssä muodossa. Haluamme muotoilla regressiomallin, joka sopii tietojen todellisiin ominaisuuksiin ja heijastaa siten kohtuullista eritelmää havaitusta prosessista peräisin olevan datan käyttäytymiselle.

Jos siis vasteen odotuksen (virhetermin) poikkeaman varianssi on kiinteä (ts. on homoskedastinen), haluamme mallin, joka heijastaa tätä. Vasteen poikkeaman varianssi odotuksesta (virhetermi) riippuu selittävästä muuttujasta (ts. on heteroskedastinen), sitten haluamme mallin, joka heijastaa tätä . Jos määritämme mallin väärin (esim. Käyttämällä homoskedastista mallia heteroskedastisille tiedoille), se tarkoittaa, että määritämme virheellisesti virhetermin varianssin. Tuloksena on, että arviomme regressiofunktiosta alirangaistavat joitain virheitä ja ylirangaistavat muita virheitä ja toimivat yleensä huonommin kuin jos määritämme mallin oikein.

Vastaus

Muiden erinomaisten vastausten lisäksi:

Voiko joku selittää intuitiivisesti, miksi tämä on tarpeen ? (Käytetty esimerkki olisi hieno!)

Jatkuva varianssi ei ole ”välttämätöntä , mutta kun siinä on mallinnus ja analyysi, Osa tästä on oltava historiallista, analyysi silloin, kun varianssi ei ole vakio, on monimutkaisempi, vaatii enemmän laskentaa! Joten yksi kehitetty menetelmä (muunnos) päästä tilanteeseen, jossa jatkuva varianssi on voimassa ja yksinkertaisempia / nopeampia menetelmiä voitaisiin käyttää. Vaihtoehtoisia menetelmiä on enemmän, eikä nopea laskenta ole niin tärkeää kuin se oli. Mutta yksinkertaisuus on silti arvokasta! Osa on tekninen / matemaattinen. Malleissa, joissa ei ole jatkuvaa varianssia, ei ole tarkkoja apulaitteita (katso täältä .) Joten vain likimääräinen päätelmä on mahdollinen. Kahden ryhmän ongelman jatkuva varianssi on kuuluisa Behrens-Fisher-ongelma .

Mutta se on sitäkin syvempi. Katsotaanpa yksinkertaisin esimerkki, verrataan kahden ryhmän keskiarvoja t-testiin (jokin variantti). Nollahypoteesi on, että ryhmät ovat samat. Oletetaan, että tämä on satunnaistettu koe hoito- ja kontrolliryhmän kanssa. Jos ryhmäkoot ovat kohtuulliset, satunnaistamisen tulisi tehdä ryhmistä tasa-arvoiset (ennen hoitoa.) Vakio varianssioletus sanoo, että hoito (jos se toimii ollenkaan) vaikuttaa vain keskiarvoon, ei varianssiin. Mutta miten se voisi vaikuttaa varianssiin? Jos hoito todella toimii tasapuolisesti kaikkien hoitoryhmän jäsenten kanssa, sillä pitäisi olla suurin piirtein sama vaikutus kaikkiin, ryhmä on juuri siirtynyt. Joten epätasainen vaihtelu voi tarkoittaa, että hoidolla on erilainen vaikutus joillekin hoitoryhmän jäsenille kuin toisille. Oletetaan, että jos sillä on jonkin verran vaikutusta puoleen ryhmään ja paljon voimakkaampaan vaikutukseen toiselle puoliskolle, varianssi kasvaa yhdessä keskiarvon kanssa! Jatkuva varianssioletus on siis oletus yksittäisten hoitovaikutusten homogenisuudesta . Kun tämä ei pidä paikkaansa, on odotettavissa, että analyysi muuttuu sekavammaksi. Katso täältä . Sitten epätasaisten vaihteluiden kanssa voi olla myös mielenkiintoista kysyä sen syistä, varsinkin jos hoidolla voisi olla mitään tekemistä sen kanssa. Jos näin on, tämä viesti saattaa kiinnostaa .

Kysymys 2: Voin älä koskaan muista, onko se hetero- vai homo- ihanteellinen. Voisiko joku selittää, mikä on ihanteellinen?

Kukaan ei ole ihanteellinen , sinun on mallinnettava tilanteesi! Mutta jos tämä on kysymys näiden kahden hauskan sanan merkityksen muistamisesta, aseta ne vain sukupuoleen ja muistat.

Kysymys 3: Heteroskedastisuus tarkoittaa, että x korreloi virheiden kanssa. Voisiko joku selittää, miksi tämä on huono?

Se tarkoittaa, että annettujen virheiden ehdollinen jakauma $ x $ , vaihtelee $ x $ . Se ei ole ”t huono , se vain tekee elämästä monimutkaista. Mutta se saattaa vain tehdä elämästä mielenkiintoisen, se voi olla merkki jostakin mielenkiintoisesta tapahtumasta.

vastaus

Yksi OLS-regressiolettamuksista on:

Virhetermin / jäännöksen varianssi on vakio. tunnetaan nimellä homoskedasticity .

Tämä oletus varmistaa, että havaintojen muutoksen myötä virhetermin ei pitäisi muuttua

Jos tätä ehtoa rikotaan, tavalliset pienimmän neliön estimaattorit olisi edelleen lineaarinen, puolueeton ja johdonmukainen, nämä estimaattorit eivät kuitenkaan ole enää tehokkaita .

Lisäksi vakiovirheen estimaatit muuttuisivat puolueellisiksi ja epäluotettava

heteroskedastiikan läsnä ollessa, mikä johtaa -ongelmaan hypoteesitestauksessa estimaattoreista .

Yhteenvetona voidaan todeta, että homoskedastiikan puuttuessa meillä on lineaarisia ja puolueettomia estimaattoreita, mutta ei SINIÄ (parhaat lineaariset puolueettomat estimaattorit)

[Lue Gauss Markov-lause]

Toivottavasti nyt on selvää, että ihannetapauksessa tarvitsemme mallissamme homoskedastiikkaa.
Jos virhetermi korreloi y: n tai y ennusti tai jokin xi: stä; se osoittaa, että ennustajamme (ennustajamme) eivät ole tehneet työtä selittääkseen varmenteen y: ssä oikein.

Mallin määrittely on jotenkin virheellinen tai siinä on joitain muita ongelmia.

Toivottavasti se auttaa! Yritän kirjoittaa pian intuitiivisen esimerkin.

Kommentit

Vastaus

Kommentit

Vastaus

Vastaus

vastaus

Vastaa Peruuta vastaus