La oss si at det eksisterer noe «sant» forhold mellom $ y $ og $ x $ slik at $ y = ax + b + \ epsilon $, hvor $ a $ og $ b $ er konstanter, og $ \ epsilon $ er normal støy. Når jeg tilfeldig genererer data fra den R-koden: x <- 1:100; y <- ax + b + rnorm(length(x)) og deretter passer til en modell som y ~ x, får jeg åpenbart rimelig gode estimater for $ a $ og $ b $.

Hvis jeg bytter rolle av variablene som i (x ~ y), og omskriv deretter resultatet for at $ y $ skal være en funksjon på $ x $, den resulterende skråningen er alltid brattere (enten mer negativ eller mer positivt) enn det som estimeres av y ~ x regresjon. Jeg prøver å forstå nøyaktig hvorfor det er og vil sette pris på det hvis noen kunne gi meg en intuisjon om hva som skjer der .

Kommentarer

  • At ‘ ikke er sant generelt. Kanskje du ‘ bare ser det i dataene dine. Lim inn denne koden: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); inn i R flere ganger, og du ‘ vil finne at det går begge veier.
  • At ‘ er litt annerledes enn det Jeg beskrev. I eksempelet ditt var y ikke ‘ en funksjon av x i det hele tatt, så ‘ er egentlig ikke noen » skråning » (‘ a ‘ i mitt eksempel).
  • lm (y ~ x) passer til modellen $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ med minste firkanter (tilsvarer ML-estimering når feilene er normal). Det er en skråning.
  • Spørsmålet ditt blir stilt og besvart (slags) på stats.stackexchange.com/questions/13126 og stats.stackexchange.com/questions/18434 . Jeg tror imidlertid ingen har bidratt med en enkel, klar forklaring på forholdet mellom (a) regresjon på $ Y $ vs $ X $, (b) regresjon på $ X $ vs $ Y $, (c) analyse av korrelasjonen på $ X $ og $ Y $, (d) feil-i-variabler regresjon på $ X $ og $ Y $, og (e) tilpasse en bivariat normalfordeling til $ (X, Y) $. Dette ville være et bra sted for en slik utstilling :-).
  • Selvfølgelig er makro riktig: fordi x og y spiller tilsvarende roller i spørsmålet, hvilken helling som er mer ekstrem er et spørsmål om tilfeldigheter. Imidlertid antyder geometri (feil) at når vi reverserer x og y i regresjonen, bør vi få resipokalen av den opprinnelige skråningen. Det skjer aldri bortsett fra når x og y er lineært avhengige. Dette spørsmålet kan tolkes som å spørre hvorfor.

Svar

Gitt $ n $ datapunkter $ (x_i, y_i), i = 1,2, \ ldots n $, i flyet, la oss tegne en rett linje $ y = ax + b $. Hvis vi forutsier $ ax_i + b $ som verdien $ \ hat {y} _i $ av $ y_i $, er feilen $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, kvadratfeilen er $ (y_i-ax_i-b) ^ 2 $, og total kvadratfeil $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Vi spør

Hvilket valg av $ a $ og $ b $ minimerer $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Siden $ (y_i-ax_i-b) $ er den vertikale avstanden på $ (x_i, y_i) $ fra rett linje, ber vi om linjen slik at summen av kvadratene til de vertikale avstandene til punktene fra linjen er så liten som mulig. Nå er $ S $ en kvadratisk funksjon av både $ a $ og $ b $ og oppnår minimumsverdien når $ a $ og $ b $ er slik at $$ \ begynner {align *} \ frac {\ partial S} {\ delvis a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Fra den andre ligningen får vi $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – en \ mu_x $$ hvor $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ er de aritmetiske gjennomsnittsverdiene for henholdsvis $ y_i $ «s og $ x_i $» s. Ved å erstatte den første ligningen får vi $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Dermed kan linjen som minimerer $ S $ uttrykkes som $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ og minimumsverdien på $ S $ er $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ høyre) – \ mu_y ^ 2 \ høyre] \ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ høyre) – \ mu_x ^ 2 \ høyre ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$

Hvis vi bytter ut rollene $ x $ og $ y $, tegner du en linje $ x = \ hat {a} y + \ hat {b} $, og ber om verdiene på $ \ hat {a} $ og $ \ hat {b} $ som minimerer $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ det vil si at vi vil ha linjen slik at summen av kvadratene til horisontale avstandene til punktene fra linjen er så liten som mulig, så får vi

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ og minimumsverdien av $ T $ er $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ høyre] \ venstre [\ venstre (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ høyre) – \ mu_x ^ 2 \ høyre] – \ venstre [\ venstre (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Merk at begge linjene går gjennom punktet $ (\ mu_x, \ mu_y) $, men bakkene er $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ er generelt forskjellige. Faktisk, som @whuber påpeker i en kommentar, er bakkene de samme når alle poengene $ (x_i, y_i) $ ligger på samme rette linje. For å se dette, merk deg at $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Kommentarer

  • Takk! abs (korrelasjon) < 1 redegjør for hvorfor skråningen systematisk var brattere i omvendt tilfelle.
  • (+1) men jeg la til et svar med bare en illustrasjon av det du nettopp sa, ettersom jeg har et geometrisk sinn 🙂
  • Klassesvar (+1)

Svar

Bare for å illustrere Dilips svar: på de følgende bildene,

  • er de svarte prikkene datapunkter;
  • til venstre er den svarte linjen regresjonslinjen oppnådd av y ~ x, som minimerer kvadratene i lengden på de røde segmentene;
  • til høyre er den svarte linjen regresjonslinjen oppnådd av x ~ y, som minimerer kvadratene i lengden på de røde segmentene.

regresjonslinjer

Rediger (minste rektangler regresjon)

Hvis det ikke er noen naturlig måte å velge et «respons» og et «kovariat», men de to variablene er avhengige av hverandre, kan det være lurt å bevare en symmetrisk rolle for $ y $ og $ x $ ; i dette tilfellet kan du bruke «minste rektangler regresjon.»

  • skriv $ Y = aX + b + \ epsilon $, som vanlig;
  • betegne $ \ hat y_i = a x_i + b $ og $ \ hat x_i = {1 \ over a} (y_i – b) $ estimeringene av $ Y_i $ betinget til $ X = x_i $ og av $ X_i $ betinget til $ Y = y_i $;
  • minimer $ \ sum_i | x_i – \ hatt x_i | \ cdot | y_i – \ hat y_i | $, som fører til $$ \ hat y = \ mathrm {sign} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$

Her er en illustrasjon med de samme datapunktene, for hvert punkt beregnes et «rektangel» som produktet av lengden på to røde segmenter, og summen av rektangler er minimert. Jeg vet ikke mye om egenskapene til denne regresjonen, og jeg finner ikke mye med google.

minste rektangler

Kommentarer

  • Noen merknader: ( 1 ) Med mindre jeg tar feil, ser det ut til at » minste rektangler regresjon » tilsvarer løsningen oppnådd fra å ta den første hovedkomponenten på matrisen $ \ mathbf X = (\ mathbf y, \ mathbf x) $ etter sentrering og omskalering til har enhetsvarians og deretter tilbakesubstituerende. (forts.)
  • (forts.) ( 2 ) Sett på denne måten er det lett å se at denne » minst rektangler regresjon » tilsvarer en form for ortogonale (eller totalt) minste kvadrater og dermed ( 3 ) Et spesielt tilfelle av Deming regresjon på de sentrerte, omskalerte vektorene som tar $ \ delta = 1 $. Ortogonale minste kvadrater kan betraktes som » minste sirkler regresjon «.
  • @cardinal Veldig interessante kommentarer! (+1) Jeg tror hovedakse (minimerer vinkelrette avstander mellom reg.linje og alle punktene, à la PCA) eller redusert hovedakseregresjon , eller type II-regresjon som eksemplifisert i lmodel2 R-pakken av P Legendre, er også relevant her siden disse teknikkene brukes når den ‘ er vanskelig å fortell hvilken rolle (respons eller prediktor) spiller hver variabel, eller når vi vil redegjøre for målefeil.
  • @chl: (+1) Ja, jeg tror du har rett og Wikipedia-siden på totalt minste kvadrater lister opp flere andre navn for samme prosedyre, ikke alle som jeg er kjent med. Det ser ut til å gå tilbake til i det minste R. Frisch, Statistisk sammenløpsanalyse ved hjelp av komplette regresjonssystemer , Universitetets Ø konomiske Instituut, 1934 hvor det ble kalt diagonal regresjon .
  • @cardinal Jeg burde vært mer forsiktig når jeg leste Wikipedia-oppføringen … For fremtidig referanse, her er et bilde hentet fra Biostatistisk design og analyse ved bruk av R , av M. Logan (Wiley, 2010; Fig. 8.4, s. 174), som oppsummerer de forskjellige tilnærmingene, omtrent som Elvis ‘ s fine illustrasjoner.

Svar

Bare et kort notat om hvorfor du ser skråningen mindre for en regresjon. Begge bakkene avhenger av tre tall: standardavvik på $ x $ og $ y $ ($ s_ {x} $ og $ s_ {y} $), og korrelasjon mellom $ x $ og $ y $ ($ r $). Regresjonen med $ y $ som respons har stigningen $ r \ frac {s_ {y}} {s_ {x}} $ og regresjonen med $ x $ som respons har stigningen $ r \ frac {s_ {x}} {s_ {y}} $, dermed er forholdet mellom den første skråningen og den gjensidige av den andre lik $ r ^ 2 \ leq 1 $.

Så jo større andel av variansen som er forklart, jo nærmere er bakker hentet fra hvert tilfelle. Merk at andelen varians som er forklart, er symmetrisk og lik den kvadratiske korrelasjonen i enkel lineær regresjon.

Svar

Regresjonslinje er ikke (alltid) det samme som sant forhold

Du kan ha noe «sant» årsaksforhold som

$$ y = a + bx + \ epsilon $$

men monterte regresjonslinjer y ~ x eller x ~ y betyr ikke det samme som det kausale forholdet (selv når uttrykket for en av regresjonslinjen i praksis kan falle sammen med uttrykket for det kausale «sanne» forholdet)


Mer presist forhold mellom skråninger

For to bytte enkle lineære regresjoner:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

du kan relatere bakkene som følger:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Så bakkene er ikke hverandre invers.


Intuisjon

Årsaken er at

  • Regresjonslinjer og korrelasjoner gjør ikke tilsvarer nødvendigvis en-til-en med en årsakssammenheng.
  • Regresjonslinjer forholder seg mer direkte til en betinget sannsynlighet eller best forutsigelse.

Du kan forestille deg at den betingede sannsynligheten er relatert til styrken i forholdet. Regresjonslinjer gjenspeiler dette, og skråningene på linjene kan være begge grunne når styrken i forholdet er liten eller begge bratt når styrken på forholdet er sterk. Skråningene er ikke bare hverandres inverse.

Eksempel

Hvis to variabler $ X $ og $ Y $ forholder seg til hverandre ved hjelp av noen (årsakssammenheng) lineære forhold $$ Y = \ text {litt $ X + $ mye av feil} $$ Da kan du forestille deg at det ville være ikke bra å reversere det forholdet helt i tilfelle du ønsker å uttrykke $ X $ basert på en gitt verdi på $ Y $ .

I stedet for

$$ X = \ text {mye $ Y + $ litt feil} $$

det ville være bedre å også bruke

$$ X = \ text {litt $ Y + $ mye feil} $$

Se følgende eksempler på distribusjoner med deres respektive regresjonslinjer.Distribusjonene er multivariate normale med $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ og $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

eksempel

De betingede forventede verdiene (hva du får i en lineær regresjon) er

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

og i dette tilfellet med $ X, Y $ en multivariat normalfordeling, så er marginale fordelinger

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

Så du kan se variabelen Y som en par t $ \ rho X $ og en delstøy med varians $ 1- \ rho ^ 2 $ . Det samme gjelder omvendt.

Jo større korrelasjonskoeffisienten $ \ rho $ er, jo nærmere vil de to linjene være. Men jo lavere korrelasjon, jo mindre sterk forholdet, desto mindre bratte vil linjene være (dette gjelder for begge linjene Y ~ X og X ~ Y)

Kommentarer

  • Det er en fantastisk forklaring. Enkelt og intuitivt

Svar

En enkel måte å se på dette er å merke seg at hvis det er sant modell $ y = \ alpha + \ beta x + \ epsilon $ , kjører du to regresjoner:

  • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
  • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Så har vi, ved hjelp av $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Så om du får en brattere skråning eller ikke, avhenger bare av forholdet $ \ frac {var (y)} { var (x)} $ . Dette forholdet er lik, basert på den antatte sanne modellen:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Link til andre svar

Du kan koble til dette resultatet med svarene fra andre, som sa at når $ R ^ 2 = 1 $ , burde det være gjensidig. Faktisk, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , og også, $ b_ {y \ sim x} = \ beta $ (ingen estimeringsfeil), Derfor:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

$ b_ {x \ sim y} = 1 / \ beta $

Svar

Det blir interessant når det også er støy på inngangene dine (som vi kan hevde at alltid er tilfelle, ingen kommando eller observasjon er perfekt).

I har bygget noen simuleringer for å observere fenomenet, basert på et enkelt lineært forhold $ x = y $, med Gaussisk støy på både x og y. Jeg genererte observasjonene som følger (python-kode):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

Se de forskjellige resultatene (odr her er ortogonal avstandsregresjon, dvs. det samme som minst rektangler regresjon):

skriv inn bildebeskrivelse her

All koden er der:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Svar

Det korte svaret

Målet med en enkel lineær regresjon er å komme med de beste spådommene fra y variabel, gitt verdier for x variabelen. Dette er et annet mål enn å prøve å komme med den beste forutsigelsen av x variabelen, gitt verdier for y variabelen.

Enkel lineær regresjon av y ~ x gir deg den «best» mulige modellen for å forutsi y gitt x. Derfor, hvis du passer til en modell for x ~ y og omvendt algebraisk, kan den modellen på sitt aller beste bare gjøre det som modellen for y ~ x. Men å invertere en modell som passer for x ~ y, vil vanligvis gjøre det verre å forutsi y gitt x, sammenlignet med den «optimale» y ~ x -modellen, fordi den «inverterte x ~ y -modellen» ble opprettet for å oppfylle et annet mål.

Illustrasjon

Tenk deg at du har følgende datasett:

enter bildebeskrivelse her

Når du kjører en OLS-regresjon på y ~ x, kommer du med følgende modell

y = 0.167 + 1.5*x 

Dette optimaliserer spådommer for y ved å lage følgende spådommer, som har tilknyttede feil:

skriv inn bildebeskrivelse her

OLS-regresjonens spådommer er optimale i den forstand at Summen av verdiene i kolonnen lengst til høyre (dvs. kvadratsummen) er så liten som mulig.

Når du kjører en OLS-regresjon på x ~ y, komme opp med en annen modell:

x = -0.07 + 0.64*y 

Dette optimaliserer spådommer av x ved å lage følgende spådommer, med tilhørende feil.

skriv inn bildebeskrivelse ion her

Igjen, dette er optimalt i den forstand at summen av verdiene i kolonnen lengst til høyre er så liten som mulig (lik 0.071).

Tenk deg at du prøvde å bare invertere den første modellen y = 0.167 + 1.5*x, ved å bruke algebra, og gi deg modellen x = -0.11 + 0.67*x.

Dette vil gi deg følgende spådommer og tilhørende feil:

skriv inn bildebeskrivelse her

Summen av verdiene i kolonnen lengst til høyre er 0.074, som er større enn den tilsvarende summen fra modellen du får fra å regressere x på y, dvs. x ~ y -modellen. Med andre ord gjør den «omvendte y ~ x -modellen en dårligere jobb med å forutsi x enn OLS-modellen til x ~ y.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *