Azt olvastam, hogy a homoskedaszticitás azt jelenti, hogy a hibakondíciók szórása következetes és nem függ az x értéktől.

1. kérdés: Meg tudja magyarázni valaki intuitívan, miért van erre szükség? (Nagyon jó lenne egy alkalmazott példa!)

2. kérdés: Soha nem emlékszem, hogy „s hetero- vagy homo- az ideális-e. Meg tudja valaki magyarázni, melyik logika ideális?

3. kérdés: A heteroskedaszticitás azt jelenti, hogy x összefügg a hibákkal. Meg tudja magyarázni valaki, hogy ez miért rossz?

A * homo- * és * heteroskedaszticitás * grafikonja

Megjegyzések

  • A heteroskedaszticitás azt jelenti, hogy x korrelál a hibákkal ” – mi készteti ezt mondani?
  • Tipp: a homoszkedaszticitás leírása egyszerű: csak egy paraméterre van szükség (a közös varianciához). Hogyan írná le a heteroszkedasztikus modellt?

Válasz

A homomoskedaszticitás azt jelenti, hogy az összes megfigyelés varianciája megegyezik egymással, a heteroszkedaszticitás azt jelenti, hogy különböznek egymástól. Lehetséges, hogy a varianciák mérete mutat valamilyen trendet az x-hez képest, de ez nem feltétlenül szükséges; amint azt a kísérő diagram mutatja, azok a varianciák, amelyek pontról pontra valamilyen véletlenszerű módon különböző méretűek, ugyanúgy megfelelnek. Homoskedasztikus és heteroszkedasztikus adatok

A regresszió feladata egy optimális görbe megbecsülése, amely a lehető legtöbb adatponthoz közelít. A heteroszkedasztikus adatok esetében értelemszerűen egyes pontok természetesen sokkal szélesebb körben oszlanak meg, mint mások. Ha a regresszió egyszerűen egyenértékűen kezeli az összes adatpontot, akkor a legnagyobb varianciával rendelkezők hajlamosak arra, hogy indokolatlan befolyással legyenek az optimális regressziós görbe kiválasztására, azzal, hogy a regressziós görbét maguk felé húzzák, hogy elérjék a az adatpontok általános szétszóródása a végső regressziós görbéről.

Ezt a kérdést könnyedén leküzdhetjük azzal, ha egyszerűen az egyes adatpontokat szórjuk fordított arányban. Ez azonban azt feltételezi, hogy az ember ismeri az egyes pontokhoz tartozó szórást. Gyakran nem történik meg. Ezért a homoskedasztikus adatok előnyben részesítése az az oka, hogy egyszerűbbek és könnyebben kezelhetők – a regressziós görbe “helyes” válaszát megkapja anélkül, hogy szükségszerűen ismerné az egyes pontok mögöttes varianciáit , mert a pontok közötti relatív súlyok bizonyos értelemben “törlődnek”, ha mindegyikük egyébként megegyezik. a pontoknak megvannak a maguk egyedi, különböző eltérései. Gondolatkísérlettel teszem. Tegyük fel, hogy arra kérem Önt, hogy mérje meg egy csomó különböző állat súlyát és hosszát, a gnat méretétől egészen a méretig. egy elefántot. Ezt úgy teszed meg, hogy az x tengelyen hosszat és az y tengelyen a súlyt ábrázolod. De álljunk meg egy pillanatra, hogy kicsit részletesebben átgondoljuk a dolgokat. Nézzük meg a súlyértékeket konkrétan – hogyan szerezte meg azokat? Nem használhatja valószínűleg ugyanazt a fizikai mérőeszközt a gnat mérésére, mint a házi kedvenc mérlegelésére, és nem is használhatja ugyanazt az eszközt mérlegeljen egy háziállatot, mint egy elefántot. A gnat esetében valószínűleg valami olyat kell használnia, mint egy analitikai kémiai mérleg , 0,0001 g pontossággal, míg a háziállat esetében “d használjon fürdőszobai mérleget, amely körülbelül fél fontra (kb. 200 g körüli) lehet pontos, míg az elefánt esetében használhat valami teherautót skála , amely csak +/- 10 kg pontossággal lehet pontos. A lényeg az, hogy ezeknek az eszközöknek különböző a belső pontossága – csak bizonyos számú számjegyig megadják a súlyt, és miután hogy nem igazán tudhatod biztosan. A fenti heteroszkedasztikus ábrán szereplő hibasávok különböző méretei, amelyeket az egyes pontok különböző eltéréseivel társítunk, az alapul szolgáló mérések különböző fokú bizonyosságát tükrözik. Röviden, a különböző pontoknak eltérései lehetnek, mert néha nem tudjuk minden pontot egyformán jól megmérni – soha nem fogja tudni, hogy az elefánt súlya +/- 0,0001 g-ig csökken, mert nem lehet ekkora pontosságot a teherautó skáláján kívül, de a gnat súlyát +/- 0,0001 g-ig megismerheti, mert az analitikai kémiai mérlegen ilyen pontosságot érhet el.(Technikailag ebben a konkrét gondolatkísérletben a hosszúságmérésnél is ugyanaz a fajta kérdés merül fel, de ez valójában annyit jelent, hogy ha úgy döntünk, hogy az x tengely értékeinek bizonytalanságait képviselő vízszintes hibasávokat is ábrázoljuk, akkor ezek különböző méretűek legyenek a különböző pontokhoz is.)

Megjegyzések

  • Jó lenne, ha elmagyaráznád, és alaposan, mi az a ” egy pont / megfigyelés varianciája “. Enélkül az olvasó úgy érezheti, hogy nem elégedett és kifogásolja: hogyan lehet egy minta egyetlen megfigyelésének saját variációs mértéke?

Válasz

Miért akarunk regresszióban homoszkaszticitást?

Ez nem hogy a regresszióban homoskedaszticitást vagy heteroskedaszticitást akarunk; azt akarjuk, hogy a modell tükrözze az adatok tényleges tulajdonságait . A regressziós modellek megfogalmazhatók akár a homoskedaszticitás, vagy a heteroskedaszticitás feltételezésével, valamilyen meghatározott formában. Olyan regressziós modellt szeretnénk megfogalmazni, amely illeszkedik az adatok tényleges tulajdonságaihoz, és ezáltal tükrözi a megfigyelt folyamatból származó adatok viselkedésének ésszerű specifikációját.

Ha tehát a válasz várakozástól (a hibatagtól) való eltérése fix (azaz homoszkedasztikus), akkor ezt tükröző modellre van szükségünk. És ha t A válasz várakozásától (a hibatagtól) való eltérésének eltérése a magyarázó változótól függ (vagyis heteroszkedasztikus), akkor olyan modellt szeretnénk, amely ezt tükrözi. Ha tévesen adjuk meg a modellt (pl. Homoskedasztikus modell használatával a heteroskedasztikus adatokhoz), akkor ez azt jelenti, hogy tévesen adjuk meg a hibakör varianciáját. Ennek eredményeként a regressziós függvényre vonatkozó becslésünk alulbüntetni fog néhány hibát, és túlbüntetni fog más hibákat, és általában gyengébben fog teljesíteni, mint ha helyesen adjuk meg a modellt.

Válasz

A többi kiváló válasz mellett:

Meg tudja magyarázni valaki intuitívan, hogy miért van erre szükség ? (Nagyon jó lenne egy alkalmazott példa!)

Az állandó variancia nem “szükséges”, de ha modellezésre és elemzésre van szükség, akkor Ennek egy részének történelminek kell lennie, az elemzés, ha a variancia nem állandó, bonyolultabb, több számítást igényel! Tehát az egyik kifejlesztett módszer (transzformáció) egy olyan helyzet kialakulásához, ahol az állandó variancia fennáll, és az egyszerűbb / gyorsabb módszereket lehetne használni. vannak még alternatív módszerek, és a gyors számítás nem olyan fontos, mint volt. De az egyszerűség még mindig érték! A rész technikai / matematikai. A nem állandó varianciával rendelkező modellek nem rendelkeznek pontos segédeszközökkel (lásd itt .) Tehát csak hozzávetőleges következtetés lehetséges. A kétcsoportos probléma állandó változata a híres Behrens-Fisher probléma .

De még ennél is mélyebb. Nézzük meg a legegyszerűbb példát, összehasonlítva két csoport átlagát egy t-teszttel (annak valamilyen változatával). A nullhipotézis szerint a csoportok egyenlőek. Tegyük fel, hogy ez egy randomizált kísérlet egy kezelési és kontrollcsoporttal. Ha a csoportméretek ésszerűek, a randomizálásnak egyenlővé kell tennie a csoportokat (a kezelés előtt.) Az állandó varianciafeltevés azt mondja, hogy a kezelés (ha egyáltalán működik), csak az átlagot befolyásolja, a varianciát nem. De hogyan befolyásolhatja a varianciát? Ha a kezelés valóban egyformán működik a kezelési csoport minden tagján, annak nagyjából ugyanannak a hatásnak kell lennie mindenki számára, a csoportot csak áthelyezik. Tehát az egyenlőtlen variancia azt jelentheti, hogy a kezelés más hatással bír a kezelési csoport egyes tagjai számára, mint mások. Mondjuk, ha a csoport egyik fele, a másik fele esetében pedig sokkal erősebb hatása van, akkor a szórás az átlaggal együtt növekszik! Tehát az állandó variancia feltételezés valóban feltételezés az egyes kezelési hatások homogenitásáról . Ha ez nem áll fenn, akkor arra kell számítani, hogy az elemzés összezavarodik. Lásd itt . Ezután egyenlőtlen eltérések mellett érdekes lehet kérdezni ennek okait is, különösen, ha a kezelésnek köze lehet ehhez. Ha igen, ez a bejegyzés érdekes lehet .

2. kérdés: Tudok soha ne emlékezz arra, hogy ideális-e a hetero vagy a homo. Meg tudná valaki magyarázni, melyik logika ideális?

Senki sem ideális , meg kell modelleznie a helyzetet! De ha kérdés merül fel a két vicces szó jelentése jének emlékezetében, akkor csak állítsa őket a szex re és emlékezni fog.

3. kérdés: A heteroskedaszticitás azt jelenti, hogy x összefügg a hibákkal. Valaki meg tudja magyarázni, hogy ez miért rossz?

Ez azt jelenti, hogy a $ x $ megadott hibák feltételes eloszlása , a $ x $ értékkel változik. Ez nem “t rossz , csak bonyolulttá teszi az életet. De lehet csak érdekessé teszi az életet, jelezheti, hogy valami érdekes történik.

Válasz

Az OLS regresszió egyik feltételezése a következő:

A hibatag / maradék varianciája állandó. Ez a feltételezés homoskedasticity néven ismert.

Ez a feltételezés biztosítja, hogy a megfigyelések változásával a a hiba kifejezés nem változhat

  1. Ha ezt a feltételt megsértik, akkor a szokásos legkisebb négyzetbecslők továbbra is lineárisak, elfogulatlanok és következetesek lennének, azonban ezek a becslések már nem lennének hatékonyak .

Ezenkívül a szabványos hiba becslései torzítanak és megbízhatatlan

heteroskedaszticitás jelenlétében, amely problémához vezet a hipotézis tesztelésében a becslőkről .

Összefoglalva, homoskedaszticitás hiányában vannak lineáris és elfogulatlan becsléseink, de nincsenek KÉK (a legjobb lineáris elfogulatlan becslők)

[Olvassa el Gauss Markov-tételt]

  1. Remélem, most már világos, hogy ideális esetben homoskedaszticitásra van szükségünk a modellünkben.

  2. Ha a hiba kifejezés összefüggésben van y vagy y megjósolta vagy bármelyik xi; ez azt jelzi, hogy előrejelzőnk (jeink) nem végezték el az „y” változatának helyes magyarázatát.

Valahogy a modell specifikációja nem megfelelő, vagy vannak más problémák.

Remélem, hogy segít! Hamarosan megpróbál intuitív példát írni.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük