Řekněme, že existuje nějaký „skutečný“ vztah mezi $ y $ a $ x $ such že $ y = ax + b + \ epsilon $, kde $ a $ a $ b $ jsou konstanty a $ \ epsilon $ je normální šum. Když náhodně generuji data z tohoto kódu R: x <- 1:100; y <- ax + b + rnorm(length(x)) a poté se hodí model jako y ~ x, očividně dostanu přiměřeně dobré odhady pro $ a $ a $ b $.

Pokud přepnu roli proměnných jako v (x ~ y) a poté přepište výsledek pro $ y $ tak, aby byl funkcí $ x $, je výsledný sklon vždy strmější (buď negativnější nebo více pozitivní) než odhadovaný y ~ x regresí. Snažím se přesně pochopit, proč tomu tak je, a ocenil bych, kdyby mi někdo mohl dát intuici o tom, co se tam děje .

Komentáře

  • To ‚ to není pravda obecně. Možná to ‚ právě vidíte ve svých datech. Vložte tento kód: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); několikrát do R a ‚ zjistíte, že to jde oběma způsoby.
  • To je ‚ trochu odlišné od toho, co Popisoval jsem to. Ve vašem příkladu y vůbec nebyla ‚ ta funkce x, takže ‚ ve skutečnosti neexistuje “ sklon “ (v mém příkladu ‚ a ‚).
  • lm (y ~ x) odpovídá modelu $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ o nejméně čtverců (odpovídá odhadu ML, když jsou chyby iid normální). Existuje sklon.
  • Vaše otázka je položena a zodpovězena (tak nějak) na stats.stackexchange.com/questions/13126 a stats.stackexchange.com/questions/18434 . Věřím však, že dosud nikdo nepřispěl jednoduchým a jasným vysvětlením vztahů mezi (a) regresí $ Y $ vs $ X $, (b) regresí $ X $ vs $ Y $, (c) analýzou korelace $ X $ a $ Y $, (d) regrese chyb v proměnných $ X $ a $ Y $ a (e) přizpůsobení dvojrozměrné normální distribuce na $ (X, Y) $. To by bylo dobré místo pro takovou expozici :-).
  • Makro je samozřejmě správné: protože x a y hrají v otázce rovnocenné role, sklon, který je extrémnější, je otázkou náhody. Geometrie však naznačuje (nesprávně), že když v regresi obrátíme x a y, měli bychom dostat recipocal původního sklonu. To se nikdy nestane, kromě případů, kdy x a y jsou lineárně závislé. Tuto otázku lze interpretovat tak, že se ptáte proč.

Odpověď

Vzhledem k $ n $ datovým bodům $ (x_i, y_i), i = 1,2, \ ldots n $, v rovině nakreslíme přímku $ y = ax + b $. Pokud předpovídáme $ ax_i + b $ jako hodnotu $ \ hat {y} _i $ z $ y_i $, pak chyba je $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, kvadratická chyba je $ (y_i-ax_i-b) ^ 2 $ a celková kvadratická chyba $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Ptáme se

Jaký výběr $ a $ a $ b $ minimalizuje $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Protože $ (y_i-ax_i-b) $ je svislá vzdálenost $ (x_i, y_i) $ od přímka, žádáme o přímku tak, aby součet čtverců svislých vzdáleností bodů od přímky byl co nejmenší. Nyní je $ S $ kvadratickou funkcí jak $ a $, tak $ b $ a dosahuje své minimální hodnoty, když $ a $ a $ b $ jsou takové, že $$ \ begin {align *} \ frac {\ částečné S} {\ částečné a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ částečné S} {\ částečné b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Z druhé rovnice dostaneme $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ kde $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ jsou aritmetické průměrné hodnoty $ y_i $ „s a $ x_i $“ s. Dosazením do první rovnice dostaneme $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Tedy řádek, který minimalizuje $ S $, lze vyjádřit jako $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ a minimální hodnota $ S $ je $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$

Pokud vyměníme role $ x $ a $ y $, nakreslete čáru $ x = \ hat {a} y + \ hat {b} $ a požádejte o hodnoty $ \ hat {a} $ a $ \ hat {b} $, které minimalizují $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ to znamená, že chceme přímku takovou, aby součet čtverců vodorovných vzdáleností bodů od přímky byl co nejmenší, pak dostaneme

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ a minimální hodnota z $ T $ je $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Všimněte si, že obě linky procházejí bodem $ (\ mu_x, \ mu_y) $, ale svahy jsou $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ se obecně liší. Ve skutečnosti, jak zdůrazňuje @whuber v komentáři, jsou svahy stejné, když všechny body $ (x_i, y_i) $ leží na stejné přímce. Chcete-li to vidět, všimněte si, že $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Komentáře

  • Děkujeme! abs (korelace) < 1 vysvětluje, proč byl sklon v obráceném případě systematicky strmější.
  • (+1), ale přidal jsem odpověď pouze s ilustrací z toho, co jste právě řekli, protože mám geometrickou mysl 🙂
  • Odpověď třídy (+1)

Odpověď

Jen pro ilustraci Dilipovy odpovědi: na následujících obrázcích jsou

  • černé tečky datovými body;
  • vlevo je černá čára regresní přímkou získanou pomocí y ~ x, která minimalizuje druhé mocniny délky červených segmentů;
  • vpravo, černá čára je regresní přímka získaná x ~ y, která minimalizuje druhé mocniny délky červených segmentů.

regresní řádky

Upravit (regrese s nejmenšími obdélníky)

Pokud neexistuje žádný přirozený způsob, jak zvolit „odpověď“ a „kovariát“, ale tyto dvě proměnné jsou vzájemně závislé, můžete zachovat symetrickou roli pro $ y $ a $ x $ ; v tomto případě můžete použít „regrese nejmenších obdélníků.“

  • napište $ Y = aX + b + \ epsilon $, jako obvykle;
  • označte $ \ hat y_i = a x_i + b $ a $ \ hat x_i = {1 \ over a} (y_i – b) $ odhady $ Y_i $ podmíněné až $ X = x_i $ a $ X_i $ podmíněné až $ Y = y_i $;
  • minimalizovat $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, což vede k $$ \ hat y = \ mathrm {sign} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$

Zde je ilustrace se stejnými datovými body, pro každý bod se vypočítá „obdélník“ jako součin délky dvou červených segmentů a součet obdélníků je minimalizováno. O vlastnostech této regrese toho moc nevím a pomocí google toho moc nenajdu.

nejmenší obdélníky

Komentáře

  • Některé poznámky: ( 1 ) Pokud se nemýlím, zdá se, že “ regrese nejmenších obdélníků “ je ekvivalentní řešení získanému převzetím první hlavní komponenty na matici $ \ mathbf X = (\ mathbf y, \ mathbf x) $ po centrování a změně měřítka na mít jednotkovou odchylku a poté nahradit. (pokračování)
  • (pokračování) ( 2 ) Z tohoto pohledu je snadné vidět, že tento “ nejméně obdélníků regrese “ je ekvivalentní formě ortogonálních (nebo celkových) nejmenších čtverců a tedy ( 3 ) Zvláštní případ Demingovy regrese na vystředěných vektorech se změněnou velikostí, přičemž $ \ delta = 1 $. Ortogonální nejmenší čtverce lze považovat za “ regrese nejméně kruhů „.
  • @cardinal Velmi zajímavé komentáře! (+1) Věřím, že hlavní osa (minimalizace kolmých vzdáleností mezi reg.čára a všechny body, à la PCA) nebo snížená regrese hlavní osy nebo regrese typu II, jak je uvedeno v balíček lmodel2 R od P Legendre, jsou zde také relevantní, protože tyto techniky se používají, když je ‚ těžké řekněte, jakou roli (odpověď nebo prediktor) hraje každá proměnná, nebo kdy chceme zohlednit chyby měření.
  • @chl: (+1) Ano, věřím, že máte pravdu, a stránka Wikipedie na nejmenších čtvercích uvádí několik dalších názvů pro stejný postup, z nichž ne všechny znám. Zdá se, že se vrací alespoň k R. Frischovi, Statistická analýza soutoku pomocí kompletních regresních systémů , Universitetets Ø konomiske Instituut, 1934, kde se tomu říkalo diagonální regrese .
  • @cardinal Při čtení záznamu na Wikipedii jsem měl být opatrnější … Pro budoucí reference, zde je obrázek převzatý z biostatistického designu a analýzy pomocí R , autor: M. Logan (Wiley, 2010; obr. 8.4, s. 174), který shrnuje různé přístupy, podobně jako Elvis ‚ s pěknými ilustracemi.

Odpověď

Jen krátká poznámka o tom, proč vidíte sklon menší pro jednu regresi. Oba svahy závisí na třech číslech: standardní odchylky $ x $ a $ y $ ($ s_ {x} $ a $ s_ {y} $) a korelace mezi $ x $ a $ y $ ($ r $). Regrese s odpovědí $ y $ má sklon $ r \ frac {s_ {y}} {s_ {x}} $ a regrese s $ x $ jako odpověď má sklon $ r \ frac {s_ {x}} {s_ {y}} $, tedy poměr prvního svahu k převrácenému podílu druhého se rovná $ r ^ 2 \ leq 1 $.

Čím větší je podíl vysvětleného rozptylu, tím blíže svahy získané z každého případu. Všimněte si, že vysvětlená část rozptylu je symetrická a rovná se druhé mocnině korelace v jednoduché lineární regrese.

Odpověď

Regresní čára je ne (vždy) stejný jako skutečný vztah

Můžete mít nějaký „skutečný“ kauzální vztah jako

$$ y = a + bx + \ epsilon $$

ale přizpůsobené regresní řádky y ~ x nebo x ~ y neznamenají totéž protože tento kauzální vztah (i když se v praxi může výraz pro jednu z regresní přímky shodovat s výrazem pro kauzální „skutečný“ vztah)


Přesnější vztah mezi svahy

Pro dvě přepínané jednoduché lineární regrese:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

svahy můžete spojit následujícím způsobem:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Takže svahy jsou ne navzájem inverzní.


Intuice

Důvodem je, že

  • Regresní čáry a korelace ano nemusí nutně odpovídat kauzálnímu vztahu jedna ku jedné.
  • Regresní čáry souvisejí přímo s podmíněnou pravděpodobností nebo nejlepší predikcí.

Dokážete si představit, že podmíněná pravděpodobnost souvisí s pevností vztahu. Regresní čáry to odrážejí a sklony čar mohou být mělké, když je síla vztahu malá, nebo obě strmé, když je síla vztahu silná. Svahy nejsou jednoduše navzájem inverzní.

Příklad

Pokud dvě proměnné $ X $ a $ Y $ se k sobě vztahují nějakým (kauzálním) lineárním vztahem $$ Y = \ text {trochu $ X + $ hodně of error} $$ Pak si dokážete představit, že by nebylo dobré tento vztah úplně zvrátit, pokud chcete vyjádřit $ X $ na základě dané hodnoty $ Y $ .

Místo

$$ X = \ text {hodně $ Y + $ trochu chyba} $$

bylo by lepší použít také

$$ X = \ text {trochu $ Y + $ spousta chyb} $$

Podívejte se na následující příklady distribucí s jejich příslušné regresní čáry.Distribuce jsou vícerozměrné normální s $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ a $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

příklad

Podmíněné očekávané hodnoty (jaké byste získali při lineární regrese) jsou

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

a v tomto případě s $ X, Y $ vícerozměrné normální rozdělení, potom okrajové rozdělení jsou

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

Takže můžete vidět proměnnou Y jako par t $ \ rho X $ a šum součásti s odchylkou $ 1- \ rho ^ 2 $ . Totéž platí i obráceně.

Čím větší je korelační koeficient $ \ rho $ , tím blíže budou tyto dva řádky. Čím nižší korelace, tím méně silný vztah, tím méně strmé čáry budou (to platí pro oba řádky Y ~ X a X ~ Y)

Komentáře

  • To je vynikající vysvětlení. Jednoduché a intuitivní

Odpověď

Jednoduchý způsob, jak se na to podívat, je poznamenat, že pokud je to pravda model $ y = \ alpha + \ beta x + \ epsilon $ , spustíte dvě regrese:

  • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
  • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Pak máme, pomocí $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Takže ať už máte strmější sklon nebo ne, záleží jen na poměru $ \ frac {var (y)} { var (x)} $ . Tento poměr se rovná předpokládanému skutečnému modelu:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Propojit s dalšími odpověďmi

Tento výsledek můžete připojit s odpověďmi ostatních, kteří uvedli, že když $ R ^ 2 = 1 $ , mělo by to být vzájemné. Ve skutečnosti $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ a také $ b_ {y \ sim x} = \ beta $ (žádná chyba odhadu), proto:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

Takže $ b_ {x \ sim y} = 1 / \ beta $

Odpověď

Stává se zajímavým, když je na vašich vstupech také šum (což bychom mohli tvrdit, že je to vždy tak, žádný příkaz nebo pozorování není vždy dokonalé).

I vytvořili několik simulací pro pozorování jevu založených na jednoduchém lineárním vztahu $ x = y $, s Gaussovým šumem na obou x a y. Pozorování jsem vygeneroval následujícím způsobem (kód v Pythonu):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

Podívejte se na různé výsledky (odr zde je ortogonální vzdálenostní regrese, tj. stejný jako regrese nejmenších obdélníků):

zde zadejte popis obrázku

Celý kód je tam:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Odpověď

Krátká odpověď

Cílem jednoduché lineární regrese je přijít s nejlepšími předpovědi y proměnná, dané hodnoty proměnné x. To je jiný cíl, než se snažit přijít s nejlepší predikcí proměnné x, vzhledem k hodnotám proměnné y.

Jednoduchá lineární regrese y ~ x vám poskytuje „nejlepší“ možný model pro předpovídání y vzhledem k x. Pokud tedy použijete model pro x ~ y a algebraicky jej převrátíte, může tento model přinejlepším fungovat stejně dobře jako model pro y ~ x. Převrácení modelu vhodného pro x ~ y však obvykle předpovídá y vzhledem k x, ve srovnání s „optimálním“ y ~ x modelem, protože „obrácený x ~ y model“ byl vytvořen za účelem splnění jiného cíle.

Ilustrace

Představte si, že máte následující datovou sadu:

zadejte popis obrázku zde

Když spustíte OLS regresi y ~ x, přijdete s následujícím modelem

y = 0.167 + 1.5*x 

Tím se optimalizují předpovědi y vytvořením následujících předpovědí, které mají související chyby:

zde zadejte popis obrázku

Předpovědi regrese OLS jsou optimální v tom smyslu, že součet hodnot ve sloupci zcela vpravo (tj. součet čtverců) je tak malý, jak jen může být.

Když spustíte OLS regresi x ~ y, přijít s jiným modelem:

x = -0.07 + 0.64*y 

Tím se optimalizují předpovědi x vytvořením následujících předpovědí s přidruženými chybami.

zadat popis obrázku zde zde

Opět je to optimální v tom smyslu, že součet hodnot sloupce zcela vpravo je co nejmenší (rovná se 0.071).

Představte si, že jste se pokusili invertovat první model y = 0.167 + 1.5*x pomocí algebry a dát vám model x = -0.11 + 0.67*x.

Získáte tak následující předpovědi a související chyby:

sem zadejte popis obrázku

Součet hodnot ve sloupci úplně vpravo je 0.074, což je větší než odpovídající součet z modelu, který získáte z regrese x na y, tj. model x ~ y. Jinými slovy, „invertovaný y ~ x model“ dělá horší práci při předpovídání x než OLS model x ~ y.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *