Să spunem că există o relație „adevărată” între $ y $ și $ x $ astfel că $ y = ax + b + \ epsilon $, unde $ a $ și $ b $ sunt constante și $ \ epsilon $ este un zgomot normal. Când generez aleatoriu date din acel cod R: x <- 1:100; y <- ax + b + rnorm(length(x)) și apoi potriviți un model ca y ~ x, evident, obțin estimări rezonabile de bune pentru $ a $ și $ b $.

Dacă schimb rolul variabilelor ca în (x ~ y), totuși, și apoi rescrieți rezultatul pentru $ y $ pentru a fi o funcție de $ x $, panta rezultată este întotdeauna mai abruptă (fie mai negativă, fie mai mare pozitiv) decât cel estimat de regresia y ~ x. Încerc să înțeleg exact de ce este și aș aprecia dacă cineva mi-ar putea da o intuiție cu privire la ce se întâmplă acolo .

Comentarii

  • Că ‘ nu este adevărat în general. Poate că ‘ doar vezi asta în datele tale. Lipiți acest cod: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); în R de mai multe ori și ‘ veți găsi că merge în ambele sensuri.
  • ‘ este puțin diferit de ceea ce Descriu. În exemplul dvs., nu erai ‘ o funcție a lui x, deci nu există ‘ cu adevărat ” panta ” (‘ a ‘ în exemplul meu).
  • lm (y ~ x) se potrivește modelului $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ cu cel puțin pătrate (echivalent cu estimarea ML atunci când erorile sunt normale). Există o pantă.
  • Întrebarea dvs. este pusă și se răspunde (un fel de) la stats.stackexchange.com/questions/13126 și stats.stackexchange.com/questions/18434 . Cu toate acestea, cred că nimeni nu a contribuit încă la o explicație simplă și clară a relațiilor dintre (a) regresia $ Y $ vs $ X $, (b) regresia $ X $ vs $ Y $, (c) analiza corelației de $ X $ și $ Y $, (d) regresia erorilor în variabile de $ X $ și $ Y $ și (e) adaptarea unei distribuții normale bivariate la $ (X, Y) $. Acesta ar fi un loc bun pentru o astfel de expunere :-).
  • Desigur, macro-ul este corect: deoarece x și y joacă roluri echivalente în întrebare, care pantă este mai extremă este o chestiune de întâmplare. Cu toate acestea, geometria sugerează (în mod incorect) că atunci când inversăm x și y în regresie, ar trebui să obținem reciproc al pantei originale. Asta nu se întâmplă niciodată, cu excepția cazului în care x și y sunt liniar dependente. Această întrebare poate fi interpretată ca întrebarea de ce.

Răspuns

Având în vedere $ n $ puncte de date $ (x_i, y_i), i = 1,2, \ ldots n $, în plan, să trasăm o dreaptă $ y = ax + b $. Dacă prezicem $ ax_i + b $ ca valoare $ \ hat {y} _i $ din $ y_i $, atunci eroarea este $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, eroarea pătrată este $ (y_i-ax_i-b) ^ 2 $, iar eroarea pătrată totală $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Întrebăm

Ce alegere dintre $ a $ și $ b $ minimizează $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Deoarece $ (y_i-ax_i-b) $ este distanța verticală a $ (x_i, y_i) $ de la linie dreaptă, cerem linia astfel încât suma pătratelor distanțelor verticale ale punctelor de linie să fie cât mai mică posibil. Acum $ S $ este o funcție pătratică atât de $ a $ cât și de $ b $ și își atinge valoarea minimă atunci când $ a $ și $ b $ sunt astfel încât $$ \ begin {align *} \ frac {\ partial S} {\ parțială a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Din a doua ecuație, obținem $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ unde $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ sunt valorile medii aritmetice ale $ y_i $ „s și respectiv $ x_i $” s. Înlocuind în prima ecuație, obținem $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Astfel, linia care minimizează $ S $ poate fi exprimată ca $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ și valoarea minimă de $ S $ este $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$

Dacă schimbăm rolurile $ x $ și $ y $, trageți o linie $ x = \ hat {a} y + \ hat {b} $ și solicitați valorile $ \ hat {a} $ și $ \ hat {b} $ care minimizează $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ adică vrem linia astfel încât suma pătratelor distanțelor orizontale a punctelor de la linie să fie cât mai mică posibil, atunci obținem

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ și valoarea minimă din $ T $ este $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Rețineți că ambele linii trec prin punctul $ (\ mu_x, \ mu_y) $, dar pantele sunt $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ sunt diferite în general. Într-adevăr, așa cum subliniază @whuber într-un comentariu, pantele sunt aceleași atunci când toate punctele $ (x_i, y_i) $ se află pe aceeași linie dreaptă. Pentru a vedea acest lucru, rețineți că $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Comentarii

  • Mulțumesc! abs (corelație) < 1 explică motivul pentru care panta a fost sistematic mai abruptă în cazul inversat.
  • (+1), dar am adăugat un răspuns doar cu o ilustrație despre ceea ce tocmai ai spus, deoarece am o minte geometrică 🙂
  • Răspuns la clasă (+1)

Răspuns

Doar pentru a ilustra răspunsul lui Dilip: pe următoarele imagini,

  • punctele negre sunt puncte de date;
  • în stânga, linia neagră este linia de regresie obținută de y ~ x, care minimizează pătratele lungimii segmentelor roșii;
  • în dreapta, linia neagră este linia de regresie obținută de x ~ y, care minimizează pătratele lungimii segmentelor roșii.

linii de regresie

Editare (regresie cu cel mai mic dreptunghi)

Dacă nu există o modalitate naturală de a alege un „răspuns” și un „covariant”, ci mai degrabă cele două variabile sunt interdependente, poate doriți să păstrați un rol simetric pentru $ y $ și $ x $ ; în acest caz puteți utiliza „regresia cu cel mai mic dreptunghi”.

  • scrieți $ Y = aX + b + \ epsilon $, ca de obicei;
  • denotați $ \ hat y_i = a x_i + b $ și $ \ hat x_i = {1 \ peste a} (y_i – b) $ estimările lui $ Y_i $ condiționate de $ X = x_i $ și de $ X_i $ condiționate de $ Y = y_i $;
  • minimiza $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, ceea ce duce la $$ \ hat y = \ mathrm {semn} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$

Iată o ilustrație cu aceleași puncte de date, pentru fiecare punct, se calculează un „dreptunghi” ca produs al lungimii a două segmente roșii, iar suma dreptunghiurilor este minimizat. Nu știu prea multe despre proprietățile acestei regresii și nu găsesc prea multe cu google.

cele mai mici dreptunghiuri

Comentarii

  • Câteva note: ( 1 ) Dacă nu mă înșel, se pare că ” regresia cu cel mai mic dreptunghi ” este echivalentă cu soluția obținută din luarea primei componente principale pe matrice $ \ mathbf X = (\ mathbf y, \ mathbf x) $ după centrare și redimensionare la au varianță de unitate și apoi se substituie înapoi. (continuare)
  • (continuare) ( 2 ) Privit în acest fel, este ușor de văzut că acest ” cel mai mic dreptunghi regresia ” este echivalentă cu o formă de cele mai mici pătrate ortogonale (sau totale) și, astfel, ( 3 ) Un caz special de Regresie Deming pe vectorii centrați, redimensionați, luând $ \ delta = 1 $. Cele mai mici pătrate ortogonale pot fi considerate drept ” regresie a cercurilor minime „.
  • @cardinal Comentarii foarte interesante! (+1) Cred că axa majoră (minimizarea distanțelor perpendiculare între reg.linie și toate punctele, à la PCA) sau regresia axei majore redusă sau regresia de tip II, după cum se exemplifică în pachetul lmodel2 R de P Legendre, sunt de asemenea relevante aici, deoarece aceste tehnici sunt folosite atunci când este ‘ greu de realizat spuneți ce rol (răspuns sau predictor) joacă fiecare variabilă sau când dorim să explicăm erorile de măsurare.
  • @chl: (+1) Da, cred că aveți dreptate și pagina Wikipedia pe totalul celor mai mici pătrate enumeră alte câteva nume pentru aceeași procedură, pe care nu le cunosc toate. Se pare că se întoarce la cel puțin R. Frisch, Analiza statistică a confluenței prin intermediul sistemelor de regresie complete , Universitetets Ø konomiske Instituut, 1934 unde a fost numit regresie diagonală .
  • @ cardinal ar fi trebuit să fiu mai atent la citirea intrării Wikipedia … Pentru referință viitoare, iată o fotografie luată din Proiectare și analiză biostatistică folosind R , de M. Logan (Wiley, 2010; Fig. 8.4, p. 174), care rezumă diferitele abordări, la fel ca ilustrațiile frumoase ale lui Elvis ‘.

Răspuns

Doar o scurtă notă despre motivul pentru care vedeți panta mai mică pentru o regresie. Ambele pante depind de trei numere: abateri standard de $ x $ și $ y $ ($ s_ {x} $ și $ s_ {y} $) și corelație între $ x $ și $ y $ ($ r $). Regresia cu $ y $ ca răspuns are panta $ r \ frac {s_ {y}} {s_ {x}} $ și regresia cu $ x $ ca răspuns are panta $ r \ frac {s_ {x}} {s_ {y}} $, deci raportul dintre prima pantă și reciprocul celei de-a doua este egal cu $ r ^ 2 \ leq 1 $.

Deci, cu cât este mai mare proporția de varianță explicată, cu atât este mai aproape pante obținute din fiecare caz. Rețineți că proporția de varianță explicată este simetrică și egală cu corelația pătrată în regresie liniară simplă.

Răspuns

Linia de regresie este nu (întotdeauna) la fel ca relația adevărată

Este posibil să aveți o relație cauzală „adevărată”, cum ar fi

$$ y = a + bx + \ epsilon $$

dar liniile de regresie montate y ~ x sau x ~ y nu înseamnă același lucru ca relație cauzală (chiar și atunci când, în practică, expresia uneia dintre linii de regresie poate coincide cu expresia relației cauzale „adevărate”)


Relație mai precisă între pante

Pentru două regresii liniare simple comutate:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

puteți raporta pante după cum urmează:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Deci pantele sunt nu invers reciproc.


Intuitia

Motivul este că

  • Liniile de regresie și corelațiile fac nu corespunde în mod necesar unu-la-unu cu o relație de cauzalitate.
  • Liniile de regresie se referă mai direct la o probabilitate condițională sau la cea mai bună predicție.

Vă puteți imagina că probabilitatea condițională se referă la forța relației. Liniile de regresie reflectă acest lucru, iar pantele liniilor pot fi ambele superficiale atunci când puterea relației este mică sau ambele abrupte atunci când puterea relației este puternică. Pante nu sunt pur și simplu invers.

Exemplu

Dacă două variabile $ X $ și $ Y $ se raportează între ei printr-o relație liniară (cauzală) $$ Y = \ text {un pic de $ X + $ mult de eroare} $$ Atunci vă puteți imagina că nu ar fi bine să inversați în totalitate acea relație în cazul în care doriți să exprimați $ X $ bazată pe o valoare dată de $ Y $ .

În loc de

$$ X = \ text {o mulțime de $ Y + $ o mică eroare} $$

ar fi mai bine să folosiți și

$$ X = \ text {un pic de $ Y + $ o mulțime de erori} $$

Consultați următoarele exemple de distribuții cu liniile de regresie respective.Distribuțiile sunt multivariate normale cu $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ și $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

exemplu

Valorile condiționate așteptate (ceea ce ați obține într-o regresie liniară) sunt

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

și în acest caz cu $ X, Y $ o distribuție normală multivariată, atunci distribuțiile marginale sunt

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

Deci poți vedeți variabila Y ca fiind o par t $ \ rho X $ și un zgomot de parte cu varianță $ 1- \ rho ^ 2 $ . Același lucru este adevărat invers.

Cu cât coeficientul de corelație $ \ rho $ este mai mare, cu atât cele două linii vor fi mai apropiate. Dar cu cât este mai mică corelația, cu atât relația este mai puțin puternică, cu atât liniile vor fi mai puțin abrupte (acest lucru este valabil pentru ambele linii Y ~ X și X ~ Y)

Comentarii

  • Aceasta este o explicație superbă. Simplu și intuitiv

Răspuns

O modalitate simplă de a privi acest lucru este să rețineți că, dacă este adevărat model $ y = \ alpha + \ beta x + \ epsilon $ , executați două regresii:

  • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
  • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Apoi, folosind $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Deci, dacă aveți o pantă mai abruptă sau nu, depinde doar de raportul $ \ frac {var (y)} { var (x)} $ . Acest raport este egal cu, pe baza modelului adevărat presupus:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Legați cu alte răspunsuri

Puteți conecta acest rezultat cu răspunsurile celorlalți, care au spus că atunci când $ R ^ 2 = 1 $ , ar trebui să fie reciproc. Într-adevăr, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ și, de asemenea, $ b_ {y \ sim x} = \ beta $ (fără eroare de estimare), prin urmare:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

Deci, $ b_ {x \ sim y} = 1 / \ beta $

Răspuns

Devine interesant atunci când există și zgomot la intrările dvs. (ceea ce am putea argumenta este întotdeauna cazul, nicio comandă sau observație nu este niciodată perfectă).

au construit câteva simulări pentru a observa fenomenul, bazate pe o relație liniară simplă $ x = y $, cu zgomot gaussian atât pe x cât și pe y. Am generat observațiile după cum urmează (cod python):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

Vedeți diferitele rezultate (odr aici este ortogonală regresia distanței, adică la fel ca regresia cu cel mai mic dreptunghi):

introduceți descrierea imaginii aici

Tot codul este acolo:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Răspuns

Răspunsul scurt

Scopul unei regresii liniare simple este de a veni cu cele mai bune predicții ale y variabilă, date valorile variabilei x. Acesta este un obiectiv diferit decât încercarea de a veni cu cea mai bună predicție a variabilei x, date valorile variabilei y.

Regresia liniară simplă a y ~ x vă oferă „cel mai bun” model posibil pentru prezicerea y dat x. Prin urmare, dacă vă potriviți un model pentru x ~ y și l-ați inversat algebric, acel model ar putea să facă cel mai bine doar modelul pentru y ~ x. Dar inversarea unui model potrivit pentru x ~ y se va descurca de obicei mai rău la prezicerea y dat x, în comparație cu modelul „optim” y ~ x, deoarece modelul „inversat x ~ y a fost creat pentru a îndeplini un obiectiv diferit.

Ilustrație

Imaginați-vă că aveți următorul set de date:

introduceți descrierea imaginii aici

Când executați o regresie OLS de y ~ x, veniți cu următorul model

y = 0.167 + 1.5*x 

Acest lucru optimizează predicțiile y făcând următoarele predicții, care au erori asociate:

introduceți descrierea imaginii aici

Predicțiile regresiei OLS sunt optime în sensul că suma valorilor din coloana din dreapta (adică suma pătratelor) este cât se poate de mică.

Când executați o regresie OLS de x ~ y, veniți cu un alt model:

x = -0.07 + 0.64*y 

Acest lucru optimizează predicțiile lui x făcând următoarele predicții, cu erori asociate.

introduceți descrierea imaginii ion aici

Din nou, acest lucru este optim în sensul că suma valorilor coloanei din dreapta sunt cât mai mici posibil (egală cu 0.071).

Acum, imaginați-vă că ați încercat să inversați primul model, y = 0.167 + 1.5*x, folosind algebră, oferindu-vă modelul x = -0.11 + 0.67*x.

Acest lucru vă va oferi următoarele predicții și erori asociate:

introduceți descrierea imaginii aici

Suma valorilor din coloana din dreapta este 0.074, care este mai mare decât suma corespunzătoare din modelul pe care îl obțineți din regresia x pe y, adică modelul x ~ y. Cu alte cuvinte, modelul „inversat y ~ x„ face o treabă mai proastă la prezicerea x decât modelul OLS al x ~ y.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *