Jaké je intuitivní vysvětlení, proč chceme homoskedasticitu v regresi?

Četl jsem, že homoskedasticita znamená, že standardní odchylka chybových výrazů je konzistentní a nezávisí na hodnotě x.

Otázka 1: Může někdo intuitivně vysvětlit, proč je to nutné? (Použitý příklad by byl skvělý!)

Otázka 2: Nikdy si nepamatuji, zda je to hetero- nebo homo- ideální. Může někdo vysvětlit logiku, která z nich je ideální?

Otázka 3: Heteroskedasticita znamená, že x souvisí s chybami. Může někdo vysvětlit, proč je to špatné?

Graf * homo- * vs. * heteroskedasticity *

Komentáře

“ Heteroskedasticita znamená, že x souvisí s chybami. “ – co vás k tomu vede?
Tip: homoscedasticitu lze snadno popsat: vyžaduje pouze jeden parametr (pro běžnou odchylku). Jak byste popsali heteroscedastický model?

Odpověď

Homoskedasticita znamená, že odchylky všech pozorování jsou navzájem identické, heteroskedasticita znamená, že jsou odlišné. Je možné, že velikost odchylek zobrazí určitý trend relativně k x, ale není to nezbytně nutné; jak je znázorněno v doprovodném diagramu, odchylky, které jsou nějakým způsobem náhodně různě velké z bodu do bodu, se kvalifikují stejně dobře. Homoskedastická vs. heteroskedastická data

Úkolem regrese je odhadnout optimální křivku, která prochází co nejblíže co největšímu počtu datových bodů. V případě heteroskedastických dat budou některé body přirozeně mnohem více rozptýleny než jiné. Pokud regres jednoduše zachází se všemi datovými body rovnocenně, budou mít ty s největší rozptylem tendenci mít nepřiměřený vliv na výběr optimální regresní křivky, a to „přetažením“ regresní křivky směrem k sobě, aby bylo dosaženo cíle minimalizace celkový rozptyl datových bodů o konečné regresní křivce.

Tento problém lze snadno překonat jednoduchým zvážením každého datového bodu v nepřímém poměru k jeho rozptylu. To však předpokládá, že jeden zná rozptyl spojený s každým jednotlivým bodem. Často se tedy nejedná o „t. Důvodem, proč jsou upřednostňována homoskedastická data, je to, že jsou jednodušší a snáze se s nimi pracuje – můžete získat„ správnou “odpověď na regresní křivku, aniž byste nutně znali základní odchylky jednotlivých bodů , protože relativní váhy mezi body se v určitém smyslu „zruší“, pokud jsou stejně stejné.

EDIT:

Komentátor mě požádá, abych vysvětlil myšlenku, že jednotlivec body mohou mít své vlastní, jedinečné, různé odchylky. Dělám to pomocí myšlenkového experimentu. Předpokládám, že vás požádám, abyste změřili hmotnost vs. délku bandy různých zvířat, od velikosti komára až po velikost slona. Uděláte to tak, že vykreslíte délku na ose x a váhu na ose y. Ale pojďme se na chvíli pozastavit, abychom zvážili věci trochu podrobněji. Podívejme se konkrétně na hodnoty hmotnosti – jak jste je vlastně získali? K vážení komára nemůžete použít stejné fyzické měřicí zařízení, jako byste vážili domácího mazlíčka, ani nemůžete použít stejné zařízení k vážení domácích zvířat. vážit domácího mazlíčka, jako byste vážili slona. U komára pravděpodobně budete muset použít něco jako analytická chemická rovnováha s přesností na 0,0001 g, zatímco u domácího mazlíčka byste použijte koupelnovou stupnici, která může být přesná přibližně na půl libry (zhruba kolem 200 g), zatímco pro slona můžete použít něco jako kamion měřítko , které může být přesné pouze s přesností +/- 10 kg. Jde o to, že všechna tato zařízení mají různé vlastní přesnosti – řeknou vám váhu pouze do určitého počtu platných číslic a poté že opravdu nemůžete vědět jistě. Různé velikosti chybových pruhů v heteroskedastickém grafu výše, které spojujeme s různými odchylkami jednotlivých bodů, odrážejí různé stupně jistoty ohledně základních měření. Stručně řečeno, různé body mohou mít různé odchylky, protože někdy nemůžeme měřit všechny body stejně dobře – nikdy neznáte váhu slona až na +/- 0,0001 g, protože nemůžete tento druh přesnosti z měřítka kamionu. Ale váhu hryzáku můžete znát na +/- 0,0001 g, protože na analytické chemické váze můžete dosáhnout takové přesnosti.(Technicky v tomto konkrétním myšlenkovém experimentu ve skutečnosti vyvstává stejný typ problému i pro měření délky, ale vše, co ve skutečnosti znamená, je, že pokud bychom se rozhodli vykreslit vodorovné chybové pruhy představující nejistoty také v hodnotách osy x, mít také různé velikosti pro různé body.)

Komentáře

Bylo by hezké, kdybyste důkladně vysvětlili, co je “ odchylka bodu / pozorování „. Bez ní by se čtenář mohl cítit nespokojen a namítat: jak může mít jediné pozorování vzorku svou vlastní variační míru?

Odpovědět

Proč chceme v regresi homoskedasticitu?

Není to tak že chceme homoskedasticitu nebo heteroskedasticitu v regresi; to, co chceme, je, aby model odrážel skutečné vlastnosti dat . Regresní modely lze formulovat buď s předpokladem homoskedasticity, nebo s předpokladem heteroskedasticity, v určité specifikované formě. Chceme formulovat regresní model, který odpovídá skutečným vlastnostem dat, a tak odráží rozumnou specifikaci chování dat pocházejících ze sledovaného procesu. p>

Pokud je tedy odchylka odchylky odpovědi od jejího očekávání (chybový člen) pevná (tj. je homoskedastická), chceme model, který to odráží. A pokud t Varianta odchylky odezvy od jejího očekávání (chybový termín) závisí na vysvětlující proměnné (tj. je heteroskedastická), potom chceme model, který odráží toto . Pokud model nesprávně zadáme (např. Použitím homoskedastického modelu pro heteroskedastická data), znamená to, že chybně zadáme rozptyl chybového výrazu. Výsledkem je, že náš odhad regresní funkce bude nedostatečně penalizovat některé chyby a nadměrně penalizovat další chyby a bude mít tendenci fungovat horší, než když model zadáme správně.

Odpověď

Kromě dalších vynikajících odpovědí:

Může někdo intuitivně vysvětlit, proč je to nutné ? (Použitý příklad by byl skvělý!)

Konstantní odchylka není nutná , ale když platí modelování a analýza je Jednodušší. Část toho musí být historická, analýza, když rozptyl není konstantní, je složitější, vyžaduje více výpočtů! Takže jedna vyvinutá metoda (transformace) se dostala do situace, kdy platí konstantní rozptyl a lze použít jednodušší / rychlejší metody. existuje více alternativních metod a rychlý výpočet není tak důležitý, jaký byl. Ale jednoduchost má stále hodnotu! Část je technická / matematická. Modely s nekonstantní odchylkou nemají přesné doplňky (viz zde .) Takže je možný pouze přibližný závěr. Nejednotnou odchylkou v problému dvou skupin je slavný Behrens-Fisherův problém .

Ale je ještě hlubší. Podívejme se na nejjednodušší příklad, který porovnává průměr dvou skupin s (nějakou variantou) t-testu. Nulová hypotéza je, že skupiny jsou si rovny. Řekněme, že se jedná o randomizovaný experiment s léčbou a kontrolní skupinou. Pokud jsou velikosti skupin přiměřené, měla by randomizace zajistit rovnost skupin (před léčbou.) Předpoklad konstantní odchylky říká, že léčba (pokud vůbec funguje) ovlivňuje pouze průměr, nikoli rozptyl. Jak by to ale mohlo ovlivnit rozptyl? Pokud léčba skutečně funguje stejně na všechny členy skupiny léčby, mělo by to mít víceméně stejný účinek na všechny, skupina je jen posunuta. Nerovná odchylka by tedy mohla znamenat, že léčba má u některých členů léčebné skupiny jiný účinek než u jiných. Řekněme, že pokud to má pro polovinu skupiny nějaký účinek a pro druhou polovinu mnohem silnější, rozptyl se zvýší společně se střední hodnotou! Předpoklad konstantní odchylky je tedy ve skutečnosti předpokladem o homogenitě jednotlivých efektů léčby . Pokud to neplatí, měli bychom očekávat, že se analýza bude více komplikovat. Zobrazit zde . Pak, s nerovnými odchylkami, by také mohlo být zajímavé se zeptat na důvody, proč to má být, konkrétně pokud by léčba mohla mít něco společného. Pokud ano, tento příspěvek by mohl být zajímavý .

Otázka 2: Mohu nikdy si nepamatuj, zda je to ideální hetero- nebo homo-. Může někdo vysvětlit logiku, která z nich je ideální?

Nikdo není ideální , musíte modelovat situaci, ve které se nacházíte! Pokud však jde o zapamatování významu těchto dvou vtipných slov, stačí je předřadit sexu a budete si pamatovat.

Otázka 3: Heteroskedasticita znamená, že x souvisí s chybami. Může někdo vysvětlit, proč je to špatné?

Znamená to, že podmíněné rozdělení chyb uvedených $ x $ , liší se podle $ x $ . To není špatné , jen to komplikuje život. Ale může to jen udělat život zajímavým, může to být signál, že se něco zajímavého děje.

Odpověď

Jedním z předpokladů regrese OLS je:

Rozptyl chybového termínu / zbytku je konstantní. Tento předpoklad je známý jako homoskedasticity .

Tento předpoklad zajišťuje, že se změnami pozorování budou variace chybový termín by se neměl měnit

Pokud je tato podmínka porušena, běžné odhady nejmenších čtverců přesto by byly lineární, nezaujaté a konzistentní, tyto odhady by již nebyly účinné .

Rovněž odhady standardní chyby se stanou zkreslenými a nespolehlivý

za přítomnosti heteroskedasticity, která vede k problému při testování hypotéz o odhadech .

Stručně řečeno, při absenci homoskedasticity máme lineární a nezaujaté odhady, ale ne MODRÉ (nejlepší lineární nezaujaté odhady)

[Přečtěte si větu Gaussa Markova]

start = „2“>

Doufám, že nyní je jasné, že v ideálním případě potřebujeme v našem modelu homoskedasticitu.

Pokud je chybný termín korelován s y nebo y předpovídal nebo některý z xi; znamená to, že náš prediktor neudělal práci, aby správně vysvětlil odchylku „y“.

Specifikace modelu nějak není správná nebo existují nějaké další problémy.

Doufám, že to pomůže! Brzy se pokusím napsat intuitivní příklad.

Komentáře

Odpověď

Komentáře

Odpovědět

Odpověď

Odpověď

Napsat komentář Zrušit odpověď na komentář