Účinek přepínací odezvy a vysvětlující proměnné v jednoduché lineární regrese

Question

Řekněme, že existuje nějaký „skutečný“ vztah mezi $ y $ a $ x $ such že $ y = ax + b + \ epsilon $, kde $ a $ a $ b $ jsou konstanty a $ \ epsilon $ je normální šum. Když náhodně generuji data z tohoto kódu R: x <- 1:100; y <- ax + b + rnorm(length(x)) a poté se hodí model jako y ~ x, očividně dostanu přiměřeně dobré odhady pro $ a $ a $ b $.

Pokud přepnu roli proměnných jako v (x ~ y) a poté přepište výsledek pro $ y $ tak, aby byl funkcí $ x $, je výsledný sklon vždy strmější (buď negativnější nebo více pozitivní) než odhadovaný y ~ x regresí. Snažím se přesně pochopit, proč tomu tak je, a ocenil bych, kdyby mi někdo mohl dát intuici o tom, co se tam děje .

Komentáře

To ‚ to není pravda obecně. Možná to ‚ právě vidíte ve svých datech. Vložte tento kód: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); několikrát do R a ‚ zjistíte, že to jde oběma způsoby.
To je ‚ trochu odlišné od toho, co Popisoval jsem to. Ve vašem příkladu y vůbec nebyla ‚ ta funkce x, takže ‚ ve skutečnosti neexistuje “ sklon “ (v mém příkladu ‚ a ‚).
lm (y ~ x) odpovídá modelu $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ o nejméně čtverců (odpovídá odhadu ML, když jsou chyby iid normální). Existuje sklon.
Vaše otázka je položena a zodpovězena (tak nějak) na stats.stackexchange.com/questions/13126 a stats.stackexchange.com/questions/18434 . Věřím však, že dosud nikdo nepřispěl jednoduchým a jasným vysvětlením vztahů mezi (a) regresí $ Y $ vs $ X $, (b) regresí $ X $ vs $ Y $, (c) analýzou korelace $ X $ a $ Y $, (d) regrese chyb v proměnných $ X $ a $ Y $ a (e) přizpůsobení dvojrozměrné normální distribuce na $ (X, Y) $. To by bylo dobré místo pro takovou expozici :-).
Makro je samozřejmě správné: protože x a y hrají v otázce rovnocenné role, sklon, který je extrémnější, je otázkou náhody. Geometrie však naznačuje (nesprávně), že když v regresi obrátíme x a y, měli bychom dostat recipocal původního sklonu. To se nikdy nestane, kromě případů, kdy x a y jsou lineárně závislé. Tuto otázku lze interpretovat tak, že se ptáte proč.

Answer 1

Vzhledem k $ n $ datovým bodům $ (x_i, y_i), i = 1,2, \ ldots n $, v rovině nakreslíme přímku $ y = ax + b $. Pokud předpovídáme $ ax_i + b $ jako hodnotu $ \ hat {y} _i $ z $ y_i $, pak chyba je $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, kvadratická chyba je $ (y_i-ax_i-b) ^ 2 $ a celková kvadratická chyba $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Ptáme se

Jaký výběr $ a $ a $ b $ minimalizuje $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Protože $ (y_i-ax_i-b) $ je svislá vzdálenost $ (x_i, y_i) $ od přímka, žádáme o přímku tak, aby součet čtverců svislých vzdáleností bodů od přímky byl co nejmenší. Nyní je $ S $ kvadratickou funkcí jak $ a $, tak $ b $ a dosahuje své minimální hodnoty, když $ a $ a $ b $ jsou takové, že $$ \ begin {align *} \ frac {\ částečné S} {\ částečné a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ částečné S} {\ částečné b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Z druhé rovnice dostaneme $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ kde $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ jsou aritmetické průměrné hodnoty $ y_i $ „s a $ x_i $“ s. Dosazením do první rovnice dostaneme $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Tedy řádek, který minimalizuje $ S $, lze vyjádřit jako $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ a minimální hodnota $ S $ je $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$

Pokud vyměníme role $ x $ a $ y $, nakreslete čáru $ x = \ hat {a} y + \ hat {b} $ a požádejte o hodnoty $ \ hat {a} $ a $ \ hat {b} $, které minimalizují $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ to znamená, že chceme přímku takovou, aby součet čtverců vodorovných vzdáleností bodů od přímky byl co nejmenší, pak dostaneme

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ a minimální hodnota z $ T $ je $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Všimněte si, že obě linky procházejí bodem $ (\ mu_x, \ mu_y) $, ale svahy jsou $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ se obecně liší. Ve skutečnosti, jak zdůrazňuje @whuber v komentáři, jsou svahy stejné, když všechny body $ (x_i, y_i) $ leží na stejné přímce. Chcete-li to vidět, všimněte si, že $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Komentáře

Děkujeme! abs (korelace) < 1 vysvětluje, proč byl sklon v obráceném případě systematicky strmější.
(+1), ale přidal jsem odpověď pouze s ilustrací z toho, co jste právě řekli, protože mám geometrickou mysl 🙂
Odpověď třídy (+1)

Answer 2

Jen krátká poznámka o tom, proč vidíte sklon menší pro jednu regresi. Oba svahy závisí na třech číslech: standardní odchylky $ x $ a $ y $ ($ s_ {x} $ a $ s_ {y} $) a korelace mezi $ x $ a $ y $ ($ r $). Regrese s odpovědí $ y $ má sklon $ r \ frac {s_ {y}} {s_ {x}} $ a regrese s $ x $ jako odpověď má sklon $ r \ frac {s_ {x}} {s_ {y}} $, tedy poměr prvního svahu k převrácenému podílu druhého se rovná $ r ^ 2 \ leq 1 $.

Čím větší je podíl vysvětleného rozptylu, tím blíže svahy získané z každého případu. Všimněte si, že vysvětlená část rozptylu je symetrická a rovná se druhé mocnině korelace v jednoduché lineární regrese.

Answer 3

Regresní čára je ne (vždy) stejný jako skutečný vztah

Můžete mít nějaký „skutečný“ kauzální vztah jako

$$ y = a + bx + \ epsilon $$

ale přizpůsobené regresní řádky y ~ x nebo x ~ y neznamenají totéž protože tento kauzální vztah (i když se v praxi může výraz pro jednu z regresní přímky shodovat s výrazem pro kauzální „skutečný“ vztah)

Přesnější vztah mezi svahy

Pro dvě přepínané jednoduché lineární regrese:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

svahy můžete spojit následujícím způsobem:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Takže svahy jsou ne navzájem inverzní.

Intuice

Důvodem je, že

Regresní čáry a korelace ano nemusí nutně odpovídat kauzálnímu vztahu jedna ku jedné.
Regresní čáry souvisejí přímo s podmíněnou pravděpodobností nebo nejlepší predikcí.

Dokážete si představit, že podmíněná pravděpodobnost souvisí s pevností vztahu. Regresní čáry to odrážejí a sklony čar mohou být mělké, když je síla vztahu malá, nebo obě strmé, když je síla vztahu silná. Svahy nejsou jednoduše navzájem inverzní.

Příklad

Pokud dvě proměnné $ X $ a $ Y $ se k sobě vztahují nějakým (kauzálním) lineárním vztahem $$ Y = \ text {trochu $ X + $ hodně of error} $$ Pak si dokážete představit, že by nebylo dobré tento vztah úplně zvrátit, pokud chcete vyjádřit $ X $ na základě dané hodnoty $ Y $ .

Místo

$$ X = \ text {hodně $ Y + $ trochu chyba} $$

bylo by lepší použít také

$$ X = \ text {trochu $ Y + $ spousta chyb} $$

Podívejte se na následující příklady distribucí s jejich příslušné regresní čáry.Distribuce jsou vícerozměrné normální s $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ a $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

Podmíněné očekávané hodnoty (jaké byste získali při lineární regrese) jsou

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

a v tomto případě s $ X, Y $ vícerozměrné normální rozdělení, potom okrajové rozdělení jsou

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

Takže můžete vidět proměnnou Y jako par t $ \ rho X $ a šum součásti s odchylkou $ 1- \ rho ^ 2 $ . Totéž platí i obráceně.

Čím větší je korelační koeficient $ \ rho $ , tím blíže budou tyto dva řádky. Čím nižší korelace, tím méně silný vztah, tím méně strmé čáry budou (to platí pro oba řádky Y ~ X a X ~ Y)

Komentáře

To je vynikající vysvětlení. Jednoduché a intuitivní

Answer 4

Jednoduchý způsob, jak se na to podívat, je poznamenat, že pokud je to pravda model $ y = \ alpha + \ beta x + \ epsilon $ , spustíte dvě regrese:

$ y = a_ {y \ sim x} + b_ {y \ sim x} x $
$ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Pak máme, pomocí $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Takže ať už máte strmější sklon nebo ne, záleží jen na poměru $ \ frac {var (y)} { var (x)} $ . Tento poměr se rovná předpokládanému skutečnému modelu:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Propojit s dalšími odpověďmi

Tento výsledek můžete připojit s odpověďmi ostatních, kteří uvedli, že když $ R ^ 2 = 1 $ , mělo by to být vzájemné. Ve skutečnosti $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ a také $ b_ {y \ sim x} = \ beta $ (žádná chyba odhadu), proto:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

Takže $ b_ {x \ sim y} = 1 / \ beta $

Answer 5

Stává se zajímavým, když je na vašich vstupech také šum (což bychom mohli tvrdit, že je to vždy tak, žádný příkaz nebo pozorování není vždy dokonalé).

I vytvořili několik simulací pro pozorování jevu založených na jednoduchém lineárním vztahu $ x = y $, s Gaussovým šumem na obou x a y. Pozorování jsem vygeneroval následujícím způsobem (kód v Pythonu):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)

Podívejte se na různé výsledky (odr zde je ortogonální vzdálenostní regrese, tj. stejný jako regrese nejmenších obdélníků):

Celý kód je tam:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Answer 6

Krátká odpověď

Cílem jednoduché lineární regrese je přijít s nejlepšími předpovědi y proměnná, dané hodnoty proměnné x. To je jiný cíl, než se snažit přijít s nejlepší predikcí proměnné x, vzhledem k hodnotám proměnné y.

Jednoduchá lineární regrese y ~ x vám poskytuje „nejlepší“ možný model pro předpovídání y vzhledem k x. Pokud tedy použijete model pro x ~ y a algebraicky jej převrátíte, může tento model přinejlepším fungovat stejně dobře jako model pro y ~ x. Převrácení modelu vhodného pro x ~ y však obvykle předpovídá y vzhledem k x, ve srovnání s „optimálním“ y ~ x modelem, protože „obrácený x ~ y model“ byl vytvořen za účelem splnění jiného cíle.

Ilustrace

Představte si, že máte následující datovou sadu:

Když spustíte OLS regresi y ~ x, přijdete s následujícím modelem

y = 0.167 + 1.5*x

Tím se optimalizují předpovědi y vytvořením následujících předpovědí, které mají související chyby:

Předpovědi regrese OLS jsou optimální v tom smyslu, že součet hodnot ve sloupci zcela vpravo (tj. součet čtverců) je tak malý, jak jen může být.

Když spustíte OLS regresi x ~ y, přijít s jiným modelem:

x = -0.07 + 0.64*y

Tím se optimalizují předpovědi x vytvořením následujících předpovědí s přidruženými chybami.

Opět je to optimální v tom smyslu, že součet hodnot sloupce zcela vpravo je co nejmenší (rovná se 0.071).

Představte si, že jste se pokusili invertovat první model y = 0.167 + 1.5*x pomocí algebry a dát vám model x = -0.11 + 0.67*x.

Získáte tak následující předpovědi a související chyby:

Součet hodnot ve sloupci úplně vpravo je 0.074, což je větší než odpovídající součet z modelu, který získáte z regrese x na y, tj. model x ~ y. Jinými slovy, „invertovaný y ~ x model“ dělá horší práci při předpovídání x než OLS model x ~ y.

Komentáře

Odpověď

Komentáře

Odpověď

Komentáře

Odpověď

Odpověď

Regresní čára je ne (vždy) stejný jako skutečný vztah

Přesnější vztah mezi svahy

Intuice

Příklad

Komentáře

Odpověď

Propojit s dalšími odpověďmi

Odpověď

Odpověď

Krátká odpověď

Ilustrace

Napsat komentář Zrušit odpověď na komentář