Lad os sige, at der findes et “sandt” forhold mellem $ y $ og $ x $ sådan at $ y = ax + b + \ epsilon $, hvor $ a $ og $ b $ er konstanter, og $ \ epsilon $ er normal støj. Når jeg tilfældigt genererer data fra den R-kode: x <- 1:100; y <- ax + b + rnorm(length(x)) og derefter tilpasse en model som y ~ x, får jeg selvfølgelig rimeligt gode skøn for $ a $ og $ b $.

Hvis jeg skifter rolle af variablerne som i (x ~ y), og omskriv derefter resultatet for $ y $ for at være en funktion af $ x $, den resulterende hældning er altid stejlere (enten mere negativ eller mere positivt) end det, der estimeres af y ~ x regression. Jeg prøver at forstå nøjagtigt hvorfor det er og ville sætte pris på det, hvis nogen kunne give mig en intuition om, hvad der foregår der .

Kommentarer

  • At ‘ ikke er sandt generelt. Måske ser du ‘ bare det i dine data. Indsæt denne kode: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); ind i R flere gange, og du ‘ finder det går begge veje.
  • At ‘ er lidt anderledes end hvad Jeg beskrev. I dit eksempel var y ikke ‘ en funktion af x overhovedet, så der ‘ er egentlig ikke nogen ” hældning ” (‘ a ‘ i mit eksempel).
  • lm (y ~ x) passer til modellen $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ med mindst kvadrater (svarer til ML-estimering, når fejlene er normalt). Der er en skråning.
  • Dit spørgsmål stilles og besvares (slags) på stats.stackexchange.com/questions/13126 og stats.stackexchange.com/questions/18434 . Jeg tror dog, at ingen endnu har bidraget med en enkel, klar forklaring på forholdet mellem (a) regression på $ Y $ vs $ X $, (b) regression på $ X $ vs $ Y $, (c) analyse af sammenhængen af $ X $ og $ Y $, (d) fejl-i-variabler regression af $ X $ og $ Y $, og (e) tilpasning af en bivariat normalfordeling til $ (X, Y) $. Dette ville være et godt sted for en sådan redegørelse :-).
  • Selvfølgelig er makro korrekt: fordi x og y spiller ækvivalente roller i spørgsmålet, hvilken hældning der er mere ekstrem er et spørgsmål om tilfældighed. Imidlertid antyder geometri (forkert), at når vi vender x og y i regressionen, skal vi få recipokal af den oprindelige hældning. Det sker aldrig, undtagen når x og y er lineært afhængige. Dette spørgsmål kan fortolkes som at spørge hvorfor.

Svar

Givet $ n $ datapunkter $ (x_i, y_i), i = 1,2, \ ldots n $, lad os tegne en lige linje $ y = ax + b $. Hvis vi forudsiger $ ax_i + b $ som værdien $ \ hat {y} _i $ af $ y_i $, så er fejlen $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, kvadratfejl er $ (y_i-ax_i-b) ^ 2 $, og total kvadratfejl $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Vi spørger

Hvilket valg af $ a $ og $ b $ minimerer $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Da $ (y_i-ax_i-b) $ er den lodrette afstand på $ (x_i, y_i) $ fra lige linje beder vi om linjen, således at summen af kvadraterne af de lodrette afstande af punkterne fra linjen er så lille som muligt. Nu er $ S $ en kvadratisk funktion af både $ a $ og $ b $ og opnår sin minimumsværdi, når $ a $ og $ b $ er sådan, at $$ \ begin {align *} \ frac {\ partial S} {\ delvis a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Fra den anden ligning får vi $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – en \ mu_x $$ hvor $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ er de aritmetiske gennemsnitsværdier for henholdsvis $ y_i $ “s og $ x_i $” s. Ved at erstatte den første ligning får vi $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Således kan linjen, der minimerer $ S $, udtrykkes som $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ og minimumsværdien af $ S $ er $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ højre) – \ mu_y ^ 2 \ højre] \ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ højre) – \ mu_x ^ 2 \ højre ] – \ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ højre) – \ mu_x \ mu_y \ højre] ^ 2} {\ venstre (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$

Hvis vi udveksler rollerne $ x $ og $ y $, tegner du en linje $ x = \ hat {a} y + \ hat {b} $ og beder om værdierne $ \ hat {a} $ og $ \ hat {b} $, der minimerer $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ det vil sige, at vi vil have linjen sådan, at summen af firkanterne for de vandrette afstande af punkterne fra linjen er så lille som muligt, så får vi

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ og minimumsværdien af $ T $ er $$ T _ {\ min} = \ frac {\ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ højre) – \ mu_y ^ 2 \ højre] \ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ højre) – \ mu_x ^ 2 \ højre] – \ venstre [\ venstre (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Bemærk, at begge linjer passerer gennem punktet $ (\ mu_x, \ mu_y) $, men skråningerne er $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ er generelt forskellige. Som @whuber påpeger i en kommentar, er skråningerne faktisk de samme, når alle point $ (x_i, y_i) $ ligger på den samme lige linje. For at se dette skal du bemærke, at $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Kommentarer

  • Tak! abs (korrelation) < 1 forklarer, hvorfor skråningen systematisk var stejlere i det omvendte tilfælde.
  • (+1) men jeg tilføjede et svar med bare en illustration af hvad du lige sagde, da jeg har et geometrisk sind 🙂
  • Klassesvar (+1)

Svar

Bare for at illustrere Dilips svar: på de følgende billeder er

  • de sorte prikker datapunkter;
  • til venstre er den sorte linje regressionslinjen opnået ved y ~ x, hvilket minimerer kvadraterne i længden af de røde segmenter;
  • til højre er den sorte linje regressionslinjen opnået ved x ~ y, hvilket minimerer kvadraterne i længden af de røde segmenter.

regressionslinjer

Rediger (mindste rektangler regression)

Hvis der ikke er nogen naturlig måde at vælge et “svar” og et “covariat” på, men de to variabler snarere er indbyrdes afhængige, kan du eventuelt bevare en symmetrisk rolle for $ y $ og $ x $ ; i dette tilfælde kan du bruge “mindste rektangler regression.”

  • skriv $ Y = aX + b + \ epsilon $ som normalt;
  • betegne $ \ hat y_i = a x_i + b $ og $ \ hat x_i = {1 \ over a} (y_i – b) $ estimationerne af $ Y_i $ betinget til $ X = x_i $ og af $ X_i $ betinget til $ Y = y_i $;
  • minimer $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, hvilket fører til $$ \ hat y = \ mathrm {sign} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$

Her er en illustration med de samme datapunkter, for hvert punkt beregnes et “rektangel” som produktet af længden af to røde segmenter, og summen af rektangler er minimeret. Jeg ved ikke meget om egenskaberne ved denne regression, og jeg finder ikke meget med google.

mindste rektangler

Kommentarer

  • Nogle noter: ( 1 ) Medmindre jeg tager fejl, ser det ud til at ” mindste rektangler regression ” svarer til løsningen opnået ved at tage den første hovedkomponent på matrixen $ \ mathbf X = (\ mathbf y, \ mathbf x) $ efter centrering og omskalering til har enhedsvarians og derefter tilbagevendende. (fortsat)
  • (fortsat) ( 2 ) Set på denne måde er det let at se, at denne ” mindst rektangler regression ” svarer til en form for ortogonale (eller i alt) mindste kvadrater og dermed ( 3 ) Et specielt tilfælde af Deming-regression på de centrerede, skalerede vektorer, der tager $ \ delta = 1 $. Ortogonale mindste firkanter kan betragtes som ” mindste cirkler regression “.
  • @cardinal Meget interessante kommentarer! (+1) Jeg tror hovedakse (minimerer vinkelrette afstande mellem reg.linje og alle punkter, à la PCA) eller reduceret hovedaksen regression eller type II regression som eksemplificeret i lmodel2 R-pakken af P Legendre, er også relevante her, da disse teknikker bruges, når det ‘ er svært at fortæl hvilken rolle (respons eller forudsigelse) spiller hver variabel, eller når vi vil tage højde for målefejl.
  • @chl: (+1) Ja, jeg tror, du har ret, og Wikipedia-siden i alt mindste kvadrater lister adskillige andre navne til den samme procedure, som ikke alle jeg kender. Det ser ud til at gå tilbage til i det mindste R. Frisch, Statistisk sammenløbsanalyse ved hjælp af komplette regressionssystemer , Universitetets Ø konomiske Instituut, 1934 hvor det blev kaldt diagonal regression .
  • @cardinal Jeg burde have været mere forsigtig, når jeg læste Wikipedia-posten … For fremtidig reference, her er et billede taget fra Biostatistisk design og analyse ved hjælp af R af M. Logan (Wiley, 2010; fig. 8.4, s. 174), der opsummerer de forskellige tilgange, ligesom Elvis ‘ s fine illustrationer.

Svar

Bare en kort note om, hvorfor du ser skråningen mindre for en regression. Begge skråninger afhænger af tre tal: standardafvigelser på $ x $ og $ y $ ($ s_ {x} $ og $ s_ {y} $) og korrelation mellem $ x $ og $ y $ ($ r $). Regression med $ y $ som svar har hældning $ r \ frac {s_ {y}} {s_ {x}} $ og regression med $ x $ som svar har hældning $ r \ frac {s_ {x}} {s_ {y}} $, derfor er forholdet mellem den første hældning og den gensidige af det andet lig med $ r ^ 2 \ leq 1 $.

Så jo større den forklarede variansandel er, jo tættere er skråninger opnået fra hvert tilfælde. Bemærk, at den forklarede andel af varians er symmetrisk og lig med den kvadratiske korrelation i simpel lineær regression.

Svar

Regressionslinie er ikke (altid) det samme som sandt forhold

Du har muligvis noget “sandt” årsagsforhold som

$$ y = a + bx + \ epsilon $$

men monterede regressionslinjer y ~ x eller x ~ y betyder ikke det samme som det kausale forhold (selv når udtrykket for en af regressionslinjen i praksis kan falde sammen med udtrykket for det kausale “sande” forhold)


Mere præcist forhold mellem skråninger

For to skiftede enkle lineære regressioner:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

kan du relatere skråningerne som følger:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Så skråningerne er ikke hinanden omvendt.


Intuition

Årsagen er, at

  • Regressionslinjer og korrelationer gør ikke svarer nødvendigvis en-til-en til en kausal sammenhæng.
  • Regressionslinjer vedrører mere direkte en betinget sandsynlighed eller bedste forudsigelse.

Du kan forestille dig, at den betingede sandsynlighed vedrører styrken i forholdet. Regressionslinjer afspejler dette, og linjernes hældning kan være begge overfladiske, når forholdets styrke er lille eller begge stejle, når forholdets styrke er stærk. Hældningerne er ikke blot hinandens omvendte.

Eksempel

Hvis to variabler $ X $ og $ Y $ relaterer til hinanden ved hjælp af et (kausalt) lineært forhold $$ Y = \ text {en smule $ X + $ meget af fejl} $$ Så kan du forestille dig, at det ikke ville være godt at helt vende dette forhold, hvis du ønsker at udtrykke $ X $ baseret på en given værdi på $ Y $ .

I stedet for

$$ X = \ text {en masse $ Y + $ lidt af fejl} $$

det ville være bedre at også bruge

$$ X = \ text {en smule $ Y + $ en masse fejl} $$

Se følgende eksempler på distributioner med deres respektive regressionslinjer.Distributionerne er multivariate normale med $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ og $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

eksempel

De betingede forventede værdier (hvad du får i en lineær regression) er

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

og i dette tilfælde med $ X, Y $ en multivariat normalfordeling, så er de marginale fordelinger

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

Så du kan se variablen Y som en par t $ \ rho X $ og en delstøj med varians $ 1- \ rho ^ 2 $ . Det samme gælder omvendt.

Jo større korrelationskoefficienten $ \ rho $ er, jo tættere vil de to linjer være. Men jo lavere korrelationen er, jo mindre stærk er forholdet, jo mindre stejle linjer vil det være (dette gælder for begge linjer Y ~ X og X ~ Y)

Kommentarer

  • Det er en fremragende forklaring. Enkel og intuitiv

Svar

En enkel måde at se på dette er at bemærke, at hvis det er sandt model $ y = \ alpha + \ beta x + \ epsilon $ , kører du to regressioner:

  • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
  • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Så har vi brug af $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Så om du får en stejlere hældning eller ikke, afhænger bare af forholdet $ \ frac {var (y)} { var (x)} $ . Dette forhold er lig med, baseret på den antagne sande model:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Link til andre svar

Du kan forbinde dette resultat med svarene fra andre, der sagde, at når $ R ^ 2 = 1 $ , skulle det være det gensidige. Faktisk, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , og også, $ b_ {y \ sim x} = \ beta $ (ingen estimationsfejl), Derfor:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

$ b_ {x \ sim y} = 1 / \ beta $

Svar

Det bliver interessant, når der også er støj på dine indgange (som vi kunne argumentere for, at det altid er tilfældet, ingen kommando eller observation er nogensinde perfekt).

I har bygget nogle simuleringer for at observere fænomenet, baseret på et simpelt lineært forhold $ x = y $, med Gaussisk støj på både x og y. Jeg genererede observationer som følger (python-kode):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

Se de forskellige resultater (odr her er ortogonal afstandsregression, dvs. det samme som mindst rektangler regression):

indtast billedbeskrivelse her

Al koden findes der:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Svar

Det korte svar

Målet med en simpel lineær regression er at komme med de bedste forudsigelser af y variabel, givet værdier for x variablen. Dette er et andet mål end at forsøge at komme med den bedste forudsigelse af x variablen, givet værdier for y variablen.

Enkel lineær regression af y ~ x giver dig den “bedst mulige” model til forudsigelse af y givet x. Derfor, hvis du tilpasser en model til x ~ y og omvendt algebraisk, kunne den model i bedste fald kun gøre det som modellen til y ~ x. Men at invertere en model, der passer til x ~ y, vil normalt gøre det dårligere ved at forudsige y givet x, sammenlignet med den “optimale” y ~ x -model, fordi den “inverterede x ~ y -model” blev oprettet for at opfylde et andet mål.

Illustration

Forestil dig at du har følgende datasæt:

enter billedbeskrivelse her

Når du kører en OLS-regression på y ~ x, kommer du med følgende model

y = 0.167 + 1.5*x 

Dette optimerer forudsigelser af y ved at foretage følgende forudsigelser, som har tilknyttede fejl:

indtast billedbeskrivelse her

OLS-regressionens forudsigelser er optimale i den forstand, at summen af værdierne i kolonnen længst til højre (dvs. summen af firkanter) er så lille som muligt.

Når du kører en OLS-regression på x ~ y, komme med en anden model:

x = -0.07 + 0.64*y 

Dette optimerer forudsigelser af x ved at foretage følgende forudsigelser med tilhørende fejl.

indtast billedbeskrivelse ion her

Dette er igen optimalt i den forstand, at summen af værdierne i kolonnen længst til højre er så lille som muligt (lig med 0.071).

Forestil dig nu, at du bare prøvede at invertere den første model, y = 0.167 + 1.5*x, ved hjælp af algebra og give dig modellen x = -0.11 + 0.67*x.

Dette giver dig følgende forudsigelser og tilknyttede fejl:

indtast billedebeskrivelse her

Summen af værdierne i kolonnen længst til højre er 0.074, som er større end den tilsvarende sum fra den model, du får ved at regressere x på y, dvs. x ~ y -modellen. Med andre ord gør den “omvendte y ~ x -model et dårligere job med at forudsige x end OLS-modellen for x ~ y.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *