Řekněme, že existuje nějaký „skutečný“ vztah mezi $ y $ a $ x $ such že $ y = ax + b + \ epsilon $, kde $ a $ a $ b $ jsou konstanty a $ \ epsilon $ je normální šum. Když náhodně generuji data z tohoto kódu R: x <- 1:100; y <- ax + b + rnorm(length(x))
a poté se hodí model jako y ~ x
, očividně dostanu přiměřeně dobré odhady pro $ a $ a $ b $.
Pokud přepnu roli proměnných jako v (x ~ y)
a poté přepište výsledek pro $ y $ tak, aby byl funkcí $ x $, je výsledný sklon vždy strmější (buď negativnější nebo více pozitivní) než odhadovaný y ~ x
regresí. Snažím se přesně pochopit, proč tomu tak je, a ocenil bych, kdyby mi někdo mohl dát intuici o tom, co se tam děje .
Komentáře
- To ‚ to není pravda obecně. Možná to ‚ právě vidíte ve svých datech. Vložte tento kód: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); několikrát do R a ‚ zjistíte, že to jde oběma způsoby.
- To je ‚ trochu odlišné od toho, co Popisoval jsem to. Ve vašem příkladu y vůbec nebyla ‚ ta funkce x, takže ‚ ve skutečnosti neexistuje “ sklon “ (v mém příkladu ‚ a ‚).
- lm (y ~ x) odpovídá modelu $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ o nejméně čtverců (odpovídá odhadu ML, když jsou chyby iid normální). Existuje sklon.
- Vaše otázka je položena a zodpovězena (tak nějak) na stats.stackexchange.com/questions/13126 a stats.stackexchange.com/questions/18434 . Věřím však, že dosud nikdo nepřispěl jednoduchým a jasným vysvětlením vztahů mezi (a) regresí $ Y $ vs $ X $, (b) regresí $ X $ vs $ Y $, (c) analýzou korelace $ X $ a $ Y $, (d) regrese chyb v proměnných $ X $ a $ Y $ a (e) přizpůsobení dvojrozměrné normální distribuce na $ (X, Y) $. To by bylo dobré místo pro takovou expozici :-).
- Makro je samozřejmě správné: protože x a y hrají v otázce rovnocenné role, sklon, který je extrémnější, je otázkou náhody. Geometrie však naznačuje (nesprávně), že když v regresi obrátíme x a y, měli bychom dostat recipocal původního sklonu. To se nikdy nestane, kromě případů, kdy x a y jsou lineárně závislé. Tuto otázku lze interpretovat tak, že se ptáte proč.
Odpověď
Vzhledem k $ n $ datovým bodům $ (x_i, y_i), i = 1,2, \ ldots n $, v rovině nakreslíme přímku $ y = ax + b $. Pokud předpovídáme $ ax_i + b $ jako hodnotu $ \ hat {y} _i $ z $ y_i $, pak chyba je $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, kvadratická chyba je $ (y_i-ax_i-b) ^ 2 $ a celková kvadratická chyba $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Ptáme se
Jaký výběr $ a $ a $ b $ minimalizuje $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?
Protože $ (y_i-ax_i-b) $ je svislá vzdálenost $ (x_i, y_i) $ od přímka, žádáme o přímku tak, aby součet čtverců svislých vzdáleností bodů od přímky byl co nejmenší. Nyní je $ S $ kvadratickou funkcí jak $ a $, tak $ b $ a dosahuje své minimální hodnoty, když $ a $ a $ b $ jsou takové, že $$ \ begin {align *} \ frac {\ částečné S} {\ částečné a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ částečné S} {\ částečné b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Z druhé rovnice dostaneme $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ kde $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ jsou aritmetické průměrné hodnoty $ y_i $ „s a $ x_i $“ s. Dosazením do první rovnice dostaneme $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Tedy řádek, který minimalizuje $ S $, lze vyjádřit jako $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ a minimální hodnota $ S $ je $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$
Pokud vyměníme role $ x $ a $ y $, nakreslete čáru $ x = \ hat {a} y + \ hat {b} $ a požádejte o hodnoty $ \ hat {a} $ a $ \ hat {b} $, které minimalizují $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ to znamená, že chceme přímku takovou, aby součet čtverců vodorovných vzdáleností bodů od přímky byl co nejmenší, pak dostaneme
$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ a minimální hodnota z $ T $ je $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$
Všimněte si, že obě linky procházejí bodem $ (\ mu_x, \ mu_y) $, ale svahy jsou $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ se obecně liší. Ve skutečnosti, jak zdůrazňuje @whuber v komentáři, jsou svahy stejné, když všechny body $ (x_i, y_i) $ leží na stejné přímce. Chcete-li to vidět, všimněte si, že $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$
Komentáře
- Děkujeme! abs (korelace) < 1 vysvětluje, proč byl sklon v obráceném případě systematicky strmější.
- (+1), ale přidal jsem odpověď pouze s ilustrací z toho, co jste právě řekli, protože mám geometrickou mysl 🙂
- Odpověď třídy (+1)
Odpověď
Jen pro ilustraci Dilipovy odpovědi: na následujících obrázcích jsou
- černé tečky datovými body;
- vlevo je černá čára regresní přímkou získanou pomocí
y ~ x
, která minimalizuje druhé mocniny délky červených segmentů; - vpravo, černá čára je regresní přímka získaná
x ~ y
, která minimalizuje druhé mocniny délky červených segmentů.
Upravit (regrese s nejmenšími obdélníky)
Pokud neexistuje žádný přirozený způsob, jak zvolit „odpověď“ a „kovariát“, ale tyto dvě proměnné jsou vzájemně závislé, můžete zachovat symetrickou roli pro $ y $ a $ x $ ; v tomto případě můžete použít „regrese nejmenších obdélníků.“
- napište $ Y = aX + b + \ epsilon $, jako obvykle;
- označte $ \ hat y_i = a x_i + b $ a $ \ hat x_i = {1 \ over a} (y_i – b) $ odhady $ Y_i $ podmíněné až $ X = x_i $ a $ X_i $ podmíněné až $ Y = y_i $;
- minimalizovat $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, což vede k $$ \ hat y = \ mathrm {sign} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$
Zde je ilustrace se stejnými datovými body, pro každý bod se vypočítá „obdélník“ jako součin délky dvou červených segmentů a součet obdélníků je minimalizováno. O vlastnostech této regrese toho moc nevím a pomocí google toho moc nenajdu.
Komentáře
- Některé poznámky: ( 1 ) Pokud se nemýlím, zdá se, že “ regrese nejmenších obdélníků “ je ekvivalentní řešení získanému převzetím první hlavní komponenty na matici $ \ mathbf X = (\ mathbf y, \ mathbf x) $ po centrování a změně měřítka na mít jednotkovou odchylku a poté nahradit. (pokračování)
- (pokračování) ( 2 ) Z tohoto pohledu je snadné vidět, že tento “ nejméně obdélníků regrese “ je ekvivalentní formě ortogonálních (nebo celkových) nejmenších čtverců a tedy ( 3 ) Zvláštní případ Demingovy regrese na vystředěných vektorech se změněnou velikostí, přičemž $ \ delta = 1 $. Ortogonální nejmenší čtverce lze považovat za “ regrese nejméně kruhů „.
- @cardinal Velmi zajímavé komentáře! (+1) Věřím, že hlavní osa (minimalizace kolmých vzdáleností mezi reg.čára a všechny body, à la PCA) nebo snížená regrese hlavní osy nebo regrese typu II, jak je uvedeno v balíček lmodel2 R od P Legendre, jsou zde také relevantní, protože tyto techniky se používají, když je ‚ těžké řekněte, jakou roli (odpověď nebo prediktor) hraje každá proměnná, nebo kdy chceme zohlednit chyby měření.
- @chl: (+1) Ano, věřím, že máte pravdu, a stránka Wikipedie na nejmenších čtvercích uvádí několik dalších názvů pro stejný postup, z nichž ne všechny znám. Zdá se, že se vrací alespoň k R. Frischovi, Statistická analýza soutoku pomocí kompletních regresních systémů , Universitetets Ø konomiske Instituut, 1934, kde se tomu říkalo diagonální regrese .
- @cardinal Při čtení záznamu na Wikipedii jsem měl být opatrnější … Pro budoucí reference, zde je obrázek převzatý z biostatistického designu a analýzy pomocí R , autor: M. Logan (Wiley, 2010; obr. 8.4, s. 174), který shrnuje různé přístupy, podobně jako Elvis ‚ s pěknými ilustracemi.
Odpověď
Jen krátká poznámka o tom, proč vidíte sklon menší pro jednu regresi. Oba svahy závisí na třech číslech: standardní odchylky $ x $ a $ y $ ($ s_ {x} $ a $ s_ {y} $) a korelace mezi $ x $ a $ y $ ($ r $). Regrese s odpovědí $ y $ má sklon $ r \ frac {s_ {y}} {s_ {x}} $ a regrese s $ x $ jako odpověď má sklon $ r \ frac {s_ {x}} {s_ {y}} $, tedy poměr prvního svahu k převrácenému podílu druhého se rovná $ r ^ 2 \ leq 1 $.
Čím větší je podíl vysvětleného rozptylu, tím blíže svahy získané z každého případu. Všimněte si, že vysvětlená část rozptylu je symetrická a rovná se druhé mocnině korelace v jednoduché lineární regrese.
Odpověď
Regresní čára je ne (vždy) stejný jako skutečný vztah
Můžete mít nějaký „skutečný“ kauzální vztah jako
$$ y = a + bx + \ epsilon $$
ale přizpůsobené regresní řádky y ~ x
nebo x ~ y
neznamenají totéž protože tento kauzální vztah (i když se v praxi může výraz pro jednu z regresní přímky shodovat s výrazem pro kauzální „skutečný“ vztah)
Přesnější vztah mezi svahy
Pro dvě přepínané jednoduché lineární regrese:
$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$
svahy můžete spojit následujícím způsobem:
$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$
Takže svahy jsou ne navzájem inverzní.
Intuice
Důvodem je, že
- Regresní čáry a korelace ano nemusí nutně odpovídat kauzálnímu vztahu jedna ku jedné.
- Regresní čáry souvisejí přímo s podmíněnou pravděpodobností nebo nejlepší predikcí.
Dokážete si představit, že podmíněná pravděpodobnost souvisí s pevností vztahu. Regresní čáry to odrážejí a sklony čar mohou být mělké, když je síla vztahu malá, nebo obě strmé, když je síla vztahu silná. Svahy nejsou jednoduše navzájem inverzní.
Příklad
Pokud dvě proměnné $ X $ a $ Y $ se k sobě vztahují nějakým (kauzálním) lineárním vztahem $$ Y = \ text {trochu $ X + $ hodně of error} $$ Pak si dokážete představit, že by nebylo dobré tento vztah úplně zvrátit, pokud chcete vyjádřit $ X $ na základě dané hodnoty $ Y $ .
Místo
$$ X = \ text {hodně $ Y + $ trochu chyba} $$
bylo by lepší použít také
$$ X = \ text {trochu $ Y + $ spousta chyb} $$
Podívejte se na následující příklady distribucí s jejich příslušné regresní čáry.Distribuce jsou vícerozměrné normální s $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ a $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $
Podmíněné očekávané hodnoty (jaké byste získali při lineární regrese) jsou
$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$
a v tomto případě s $ X, Y $ vícerozměrné normální rozdělení, potom okrajové rozdělení jsou
$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$
Takže můžete vidět proměnnou Y jako par t $ \ rho X $ a šum součásti s odchylkou $ 1- \ rho ^ 2 $ . Totéž platí i obráceně.
Čím větší je korelační koeficient $ \ rho $ , tím blíže budou tyto dva řádky. Čím nižší korelace, tím méně silný vztah, tím méně strmé čáry budou (to platí pro oba řádky Y ~ X
a X ~ Y
)
Komentáře
- To je vynikající vysvětlení. Jednoduché a intuitivní
Odpověď
Jednoduchý způsob, jak se na to podívat, je poznamenat, že pokud je to pravda model $ y = \ alpha + \ beta x + \ epsilon $ , spustíte dvě regrese:
- $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
- $ x = a_ {x \ sim y} + b_ {x \ sim y} y $
Pak máme, pomocí $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :
$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$
Takže ať už máte strmější sklon nebo ne, záleží jen na poměru $ \ frac {var (y)} { var (x)} $ . Tento poměr se rovná předpokládanému skutečnému modelu:
$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$
Propojit s dalšími odpověďmi
Tento výsledek můžete připojit s odpověďmi ostatních, kteří uvedli, že když $ R ^ 2 = 1 $ , mělo by to být vzájemné. Ve skutečnosti $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ a také $ b_ {y \ sim x} = \ beta $ (žádná chyba odhadu), proto:
$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$
Takže $ b_ {x \ sim y} = 1 / \ beta $
Odpověď
Stává se zajímavým, když je na vašich vstupech také šum (což bychom mohli tvrdit, že je to vždy tak, žádný příkaz nebo pozorování není vždy dokonalé).
I vytvořili několik simulací pro pozorování jevu založených na jednoduchém lineárním vztahu $ x = y $, s Gaussovým šumem na obou x a y. Pozorování jsem vygeneroval následujícím způsobem (kód v Pythonu):
x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)
Podívejte se na různé výsledky (odr zde je ortogonální vzdálenostní regrese, tj. stejný jako regrese nejmenších obdélníků):
Celý kód je tam:
https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd
Odpověď
Krátká odpověď
Cílem jednoduché lineární regrese je přijít s nejlepšími předpovědi y
proměnná, dané hodnoty proměnné x
. To je jiný cíl, než se snažit přijít s nejlepší predikcí proměnné x
, vzhledem k hodnotám proměnné y
.
Jednoduchá lineární regrese y ~ x
vám poskytuje „nejlepší“ možný model pro předpovídání y
vzhledem k x
. Pokud tedy použijete model pro x ~ y
a algebraicky jej převrátíte, může tento model přinejlepším fungovat stejně dobře jako model pro y ~ x
. Převrácení modelu vhodného pro x ~ y
však obvykle předpovídá y
vzhledem k x
, ve srovnání s „optimálním“ y ~ x
modelem, protože „obrácený x ~ y
model“ byl vytvořen za účelem splnění jiného cíle.
Ilustrace
Představte si, že máte následující datovou sadu:
Když spustíte OLS regresi y ~ x
, přijdete s následujícím modelem
y = 0.167 + 1.5*x
Tím se optimalizují předpovědi y
vytvořením následujících předpovědí, které mají související chyby:
Předpovědi regrese OLS jsou optimální v tom smyslu, že součet hodnot ve sloupci zcela vpravo (tj. součet čtverců) je tak malý, jak jen může být.
Když spustíte OLS regresi x ~ y
, přijít s jiným modelem:
x = -0.07 + 0.64*y
Tím se optimalizují předpovědi x vytvořením následujících předpovědí s přidruženými chybami.
Opět je to optimální v tom smyslu, že součet hodnot sloupce zcela vpravo je co nejmenší (rovná se 0.071
).
Představte si, že jste se pokusili invertovat první model y = 0.167 + 1.5*x
pomocí algebry a dát vám model x = -0.11 + 0.67*x
.
Získáte tak následující předpovědi a související chyby:
Součet hodnot ve sloupci úplně vpravo je 0.074
, což je větší než odpovídající součet z modelu, který získáte z regrese x na y, tj. model x ~ y
. Jinými slovy, „invertovaný y ~ x
model“ dělá horší práci při předpovídání x než OLS model x ~ y
.