Effekt af skifterespons og forklarende variabel i simpel lineær regression

Question

Lad os sige, at der findes et “sandt” forhold mellem $ y $ og $ x $ sådan at $ y = ax + b + \ epsilon $, hvor $ a $ og $ b $ er konstanter, og $ \ epsilon $ er normal støj. Når jeg tilfældigt genererer data fra den R-kode: x <- 1:100; y <- ax + b + rnorm(length(x)) og derefter tilpasse en model som y ~ x, får jeg selvfølgelig rimeligt gode skøn for $ a $ og $ b $.

Hvis jeg skifter rolle af variablerne som i (x ~ y), og omskriv derefter resultatet for $ y $ for at være en funktion af $ x $, den resulterende hældning er altid stejlere (enten mere negativ eller mere positivt) end det, der estimeres af y ~ x regression. Jeg prøver at forstå nøjagtigt hvorfor det er og ville sætte pris på det, hvis nogen kunne give mig en intuition om, hvad der foregår der .

Kommentarer

At ‘ ikke er sandt generelt. Måske ser du ‘ bare det i dine data. Indsæt denne kode: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); ind i R flere gange, og du ‘ finder det går begge veje.
At ‘ er lidt anderledes end hvad Jeg beskrev. I dit eksempel var y ikke ‘ en funktion af x overhovedet, så der ‘ er egentlig ikke nogen ” hældning ” (‘ a ‘ i mit eksempel).
lm (y ~ x) passer til modellen $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ med mindst kvadrater (svarer til ML-estimering, når fejlene er normalt). Der er en skråning.
Dit spørgsmål stilles og besvares (slags) på stats.stackexchange.com/questions/13126 og stats.stackexchange.com/questions/18434 . Jeg tror dog, at ingen endnu har bidraget med en enkel, klar forklaring på forholdet mellem (a) regression på $ Y $ vs $ X $, (b) regression på $ X $ vs $ Y $, (c) analyse af sammenhængen af $ X $ og $ Y $, (d) fejl-i-variabler regression af $ X $ og $ Y $, og (e) tilpasning af en bivariat normalfordeling til $ (X, Y) $. Dette ville være et godt sted for en sådan redegørelse :-).
Selvfølgelig er makro korrekt: fordi x og y spiller ækvivalente roller i spørgsmålet, hvilken hældning der er mere ekstrem er et spørgsmål om tilfældighed. Imidlertid antyder geometri (forkert), at når vi vender x og y i regressionen, skal vi få recipokal af den oprindelige hældning. Det sker aldrig, undtagen når x og y er lineært afhængige. Dette spørgsmål kan fortolkes som at spørge hvorfor.

Answer 1

Givet $ n $ datapunkter $ (x_i, y_i), i = 1,2, \ ldots n $, lad os tegne en lige linje $ y = ax + b $. Hvis vi forudsiger $ ax_i + b $ som værdien $ \ hat {y} _i $ af $ y_i $, så er fejlen $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, kvadratfejl er $ (y_i-ax_i-b) ^ 2 $, og total kvadratfejl $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Vi spørger

Hvilket valg af $ a $ og $ b $ minimerer $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Da $ (y_i-ax_i-b) $ er den lodrette afstand på $ (x_i, y_i) $ fra lige linje beder vi om linjen, således at summen af kvadraterne af de lodrette afstande af punkterne fra linjen er så lille som muligt. Nu er $ S $ en kvadratisk funktion af både $ a $ og $ b $ og opnår sin minimumsværdi, når $ a $ og $ b $ er sådan, at $$ \ begin {align *} \ frac {\ partial S} {\ delvis a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Fra den anden ligning får vi $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – en \ mu_x $$ hvor $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ er de aritmetiske gennemsnitsværdier for henholdsvis $ y_i $ “s og $ x_i $” s. Ved at erstatte den første ligning får vi $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Således kan linjen, der minimerer $ S $, udtrykkes som $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ og minimumsværdien af $ S $ er $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ højre) – \ mu_y ^ 2 \ højre] \ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ højre) – \ mu_x ^ 2 \ højre ] – \ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ højre) – \ mu_x \ mu_y \ højre] ^ 2} {\ venstre (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$

Hvis vi udveksler rollerne $ x $ og $ y $, tegner du en linje $ x = \ hat {a} y + \ hat {b} $ og beder om værdierne $ \ hat {a} $ og $ \ hat {b} $, der minimerer $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ det vil sige, at vi vil have linjen sådan, at summen af firkanterne for de vandrette afstande af punkterne fra linjen er så lille som muligt, så får vi

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ og minimumsværdien af $ T $ er $$ T _ {\ min} = \ frac {\ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ højre) – \ mu_y ^ 2 \ højre] \ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ højre) – \ mu_x ^ 2 \ højre] – \ venstre [\ venstre (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Bemærk, at begge linjer passerer gennem punktet $ (\ mu_x, \ mu_y) $, men skråningerne er $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ er generelt forskellige. Som @whuber påpeger i en kommentar, er skråningerne faktisk de samme, når alle point $ (x_i, y_i) $ ligger på den samme lige linje. For at se dette skal du bemærke, at $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Kommentarer

Tak! abs (korrelation) < 1 forklarer, hvorfor skråningen systematisk var stejlere i det omvendte tilfælde.
(+1) men jeg tilføjede et svar med bare en illustration af hvad du lige sagde, da jeg har et geometrisk sind 🙂
Klassesvar (+1)

Answer 2

Bare en kort note om, hvorfor du ser skråningen mindre for en regression. Begge skråninger afhænger af tre tal: standardafvigelser på $ x $ og $ y $ ($ s_ {x} $ og $ s_ {y} $) og korrelation mellem $ x $ og $ y $ ($ r $). Regression med $ y $ som svar har hældning $ r \ frac {s_ {y}} {s_ {x}} $ og regression med $ x $ som svar har hældning $ r \ frac {s_ {x}} {s_ {y}} $, derfor er forholdet mellem den første hældning og den gensidige af det andet lig med $ r ^ 2 \ leq 1 $.

Så jo større den forklarede variansandel er, jo tættere er skråninger opnået fra hvert tilfælde. Bemærk, at den forklarede andel af varians er symmetrisk og lig med den kvadratiske korrelation i simpel lineær regression.

Answer 3

Regressionslinie er ikke (altid) det samme som sandt forhold

Du har muligvis noget “sandt” årsagsforhold som

$$ y = a + bx + \ epsilon $$

men monterede regressionslinjer y ~ x eller x ~ y betyder ikke det samme som det kausale forhold (selv når udtrykket for en af regressionslinjen i praksis kan falde sammen med udtrykket for det kausale “sande” forhold)

Mere præcist forhold mellem skråninger

For to skiftede enkle lineære regressioner:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

kan du relatere skråningerne som følger:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Så skråningerne er ikke hinanden omvendt.

Intuition

Årsagen er, at

Regressionslinjer og korrelationer gør ikke svarer nødvendigvis en-til-en til en kausal sammenhæng.
Regressionslinjer vedrører mere direkte en betinget sandsynlighed eller bedste forudsigelse.

Du kan forestille dig, at den betingede sandsynlighed vedrører styrken i forholdet. Regressionslinjer afspejler dette, og linjernes hældning kan være begge overfladiske, når forholdets styrke er lille eller begge stejle, når forholdets styrke er stærk. Hældningerne er ikke blot hinandens omvendte.

Eksempel

Hvis to variabler $ X $ og $ Y $ relaterer til hinanden ved hjælp af et (kausalt) lineært forhold $$ Y = \ text {en smule $ X + $ meget af fejl} $$ Så kan du forestille dig, at det ikke ville være godt at helt vende dette forhold, hvis du ønsker at udtrykke $ X $ baseret på en given værdi på $ Y $ .

I stedet for

$$ X = \ text {en masse $ Y + $ lidt af fejl} $$

det ville være bedre at også bruge

$$ X = \ text {en smule $ Y + $ en masse fejl} $$

Se følgende eksempler på distributioner med deres respektive regressionslinjer.Distributionerne er multivariate normale med $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ og $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

De betingede forventede værdier (hvad du får i en lineær regression) er

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

og i dette tilfælde med $ X, Y $ en multivariat normalfordeling, så er de marginale fordelinger

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

Så du kan se variablen Y som en par t $ \ rho X $ og en delstøj med varians $ 1- \ rho ^ 2 $ . Det samme gælder omvendt.

Jo større korrelationskoefficienten $ \ rho $ er, jo tættere vil de to linjer være. Men jo lavere korrelationen er, jo mindre stærk er forholdet, jo mindre stejle linjer vil det være (dette gælder for begge linjer Y ~ X og X ~ Y)

Kommentarer

Det er en fremragende forklaring. Enkel og intuitiv

Answer 4

En enkel måde at se på dette er at bemærke, at hvis det er sandt model $ y = \ alpha + \ beta x + \ epsilon $ , kører du to regressioner:

$ y = a_ {y \ sim x} + b_ {y \ sim x} x $
$ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Så har vi brug af $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Så om du får en stejlere hældning eller ikke, afhænger bare af forholdet $ \ frac {var (y)} { var (x)} $ . Dette forhold er lig med, baseret på den antagne sande model:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Link til andre svar

Du kan forbinde dette resultat med svarene fra andre, der sagde, at når $ R ^ 2 = 1 $ , skulle det være det gensidige. Faktisk, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , og også, $ b_ {y \ sim x} = \ beta $ (ingen estimationsfejl), Derfor:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

Så $ b_ {x \ sim y} = 1 / \ beta $

Answer 5

Det bliver interessant, når der også er støj på dine indgange (som vi kunne argumentere for, at det altid er tilfældet, ingen kommando eller observation er nogensinde perfekt).

I har bygget nogle simuleringer for at observere fænomenet, baseret på et simpelt lineært forhold $ x = y $, med Gaussisk støj på både x og y. Jeg genererede observationer som følger (python-kode):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)

Se de forskellige resultater (odr her er ortogonal afstandsregression, dvs. det samme som mindst rektangler regression):

Al koden findes der:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Answer 6

Det korte svar

Målet med en simpel lineær regression er at komme med de bedste forudsigelser af y variabel, givet værdier for x variablen. Dette er et andet mål end at forsøge at komme med den bedste forudsigelse af x variablen, givet værdier for y variablen.

Enkel lineær regression af y ~ x giver dig den “bedst mulige” model til forudsigelse af y givet x. Derfor, hvis du tilpasser en model til x ~ y og omvendt algebraisk, kunne den model i bedste fald kun gøre det som modellen til y ~ x. Men at invertere en model, der passer til x ~ y, vil normalt gøre det dårligere ved at forudsige y givet x, sammenlignet med den “optimale” y ~ x -model, fordi den “inverterede x ~ y -model” blev oprettet for at opfylde et andet mål.

Illustration

Forestil dig at du har følgende datasæt:

Når du kører en OLS-regression på y ~ x, kommer du med følgende model

y = 0.167 + 1.5*x

Dette optimerer forudsigelser af y ved at foretage følgende forudsigelser, som har tilknyttede fejl:

OLS-regressionens forudsigelser er optimale i den forstand, at summen af værdierne i kolonnen længst til højre (dvs. summen af firkanter) er så lille som muligt.

Når du kører en OLS-regression på x ~ y, komme med en anden model:

x = -0.07 + 0.64*y

Dette optimerer forudsigelser af x ved at foretage følgende forudsigelser med tilhørende fejl.

Dette er igen optimalt i den forstand, at summen af værdierne i kolonnen længst til højre er så lille som muligt (lig med 0.071).

Forestil dig nu, at du bare prøvede at invertere den første model, y = 0.167 + 1.5*x, ved hjælp af algebra og give dig modellen x = -0.11 + 0.67*x.

Dette giver dig følgende forudsigelser og tilknyttede fejl:

Summen af værdierne i kolonnen længst til højre er 0.074, som er større end den tilsvarende sum fra den model, du får ved at regressere x på y, dvs. x ~ y -modellen. Med andre ord gør den “omvendte y ~ x -model et dårligere job med at forudsige x end OLS-modellen for x ~ y.

Effekt af skifterespons og forklarende variabel i simpel lineær regression

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Svar

Regressionslinie er ikke (altid) det samme som sandt forhold

Mere præcist forhold mellem skråninger

Intuition

Eksempel

Kommentarer

Svar

Link til andre svar

Svar

Svar

Det korte svar

Illustration

Skriv et svar Annuller svar