Laten we zeggen dat er een “echte” relatie bestaat tussen $ y $ en $ x $ dergelijke dat $ y = ax + b + \ epsilon $, waarbij $ a $ en $ b $ constanten zijn en $ \ epsilon $ iid normale ruis. Wanneer ik willekeurig gegevens genereer uit die R-code: x <- 1:100; y <- ax + b + rnorm(length(x))
en dan in een model als y ~ x
passen, krijg ik duidelijk redelijk goede schattingen voor $ a $ en $ b $.
Als ik van rol verander van de variabelen zoals in (x ~ y)
, en vervolgens het resultaat herschrijven voor $ y $ tot een functie van $ x $, is de resulterende helling altijd steiler (meer negatief of meer positief) dan geschat door de y ~ x
regressie. Ik probeer precies te begrijpen waarom dat zo is en zou het op prijs stellen als iemand me een idee zou kunnen geven van wat daar aan de hand is .
Opmerkingen
- Dat ‘ is niet waar in het algemeen. Misschien ziet u ‘ dat alleen in uw gegevens. Plak deze code: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); meerdere keren in R en je ‘ zult ontdekken dat het in beide richtingen gaat.
- Dat ‘ is een beetje anders dan wat Ik beschreef. In uw voorbeeld was y helemaal geen ‘ een functie van x, dus ‘ s niet echt ” helling ” (de ‘ a ‘ in mijn voorbeeld).
- lm (y ~ x) past in het model $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ met de kleinste kwadraten (equivalent aan ML-schatting wanneer de fouten normaal zijn). Er is een helling.
- Uw vraag wordt gesteld en beantwoord (soort van) op stats.stackexchange.com/questions/13126 en stats.stackexchange.com/questions/18434 . Ik geloof echter dat nog niemand een eenvoudige, duidelijke uitleg heeft gegeven van de relaties tussen (a) regressie van $ Y $ versus $ X $, (b) regressie van $ X $ versus $ Y $, (c) analyse van de correlatie van $ X $ en $ Y $, (d) regressie van fouten in variabelen van $ X $ en $ Y $, en (e) passen van een bivariate Normale verdeling aan $ (X, Y) $. Dit zou een goede plek zijn voor zon expositie :-).
- Natuurlijk is Macro correct: omdat x en y een gelijkwaardige rol spelen in de vraag, is welke helling extremer is een kwestie van toeval. Geometrie suggereert echter (ten onrechte) dat wanneer we x en y omkeren in de regressie, we de recipocale van de oorspronkelijke helling moeten krijgen. Dat gebeurt nooit, behalve wanneer x en y lineair afhankelijk zijn. Deze vraag kan worden geïnterpreteerd als de vraag waarom.
Antwoord
Gegeven $ n $ datapunten $ (x_i, y_i), i = 1,2, \ ldots n $, laten we in het vlak een rechte lijn $ y = ax + b $ trekken. Als we $ ax_i + b $ voorspellen als de waarde $ \ hat {y} _i $ van $ y_i $, dan is de fout $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, de kwadraatfout is $ (y_i-ax_i-b) ^ 2 $, en de totale kwadraatfout $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. We vragen
Welke keuze van $ a $ en $ b $ minimaliseert $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?
Aangezien $ (y_i-ax_i-b) $ de verticale afstand is van $ (x_i, y_i) $ vanaf de rechte lijn, we vragen om de lijn zodanig dat de som van de vierkanten van de verticale afstanden van de punten van de lijn zo klein mogelijk is. $ S $ is nu een kwadratische functie van zowel $ a $ als $ b $ en bereikt zijn minimumwaarde wanneer $ a $ en $ b $ zodanig zijn dat $$ \ begin {align *} \ frac {\ partiële S} {\ gedeeltelijk a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partiële S} {\ partiële b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Uit de tweede vergelijking krijgen we $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ waarbij $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ zijn de rekenkundige gemiddelde waarden van respectievelijk de $ y_i $ “s en de $ x_i $” s. Vervanging in de eerste vergelijking, krijgen we $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Dus de regel die $ S $ minimaliseert, kan worden uitgedrukt als $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ en de minimumwaarde van $ S $ is $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$
Als we de rollen $ x $ en $ y $ verwisselen, teken dan een lijn $ x = \ hat {a} y + \ hat {b} $ en vraag naar de waarden van $ \ hat {a} $ en $ \ hat {b} $ die $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ minimaliseren dat wil zeggen, we willen de lijn zo dat de som van de kwadraten van de horizontale afstanden van de punten vanaf de lijn zo klein mogelijk is, dan krijgen we
$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ en de minimumwaarde van $ T $ is $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$
Merk op dat beide lijnen door het punt $ (\ mu_x, \ mu_y) $ lopen, maar de hellingen zijn $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ verschillen in het algemeen. Inderdaad, zoals @whuber in een opmerking aangeeft, zijn de hellingen hetzelfde als alle punten $ (x_i, y_i) $ op dezelfde rechte lijn liggen. Houd er rekening mee dat $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$
Reacties
- Bedankt! abs (correlatie) < 1 verklaart waarom de helling systematisch steiler was in het omgekeerde geval.
- (+1) maar ik heb een antwoord toegevoegd met slechts een illustratie van wat je net zei, aangezien ik een geometrische geest heb 🙂
- Klasseantwoord (+1)
Antwoord
Om het antwoord van Dilip te illustreren: op de volgende afbeeldingen,
- zijn de zwarte stippen datapunten;
- aan de linkerkant is de zwarte lijn de regressielijn verkregen door
y ~ x
, die de lengte van de rode segmenten verkleint; - aan de rechterkant, is de zwarte lijn de regressielijn verkregen door
x ~ y
, die de vierkanten van de lengte van de rode segmenten minimaliseert.
Bewerken (regressie met minste rechthoeken)
Als er geen natuurlijke manier is om een “antwoord” en een “covariaat” te kiezen, maar de twee variabelen onderling afhankelijk zijn, wilt u misschien een symmetrische rol behouden voor $ y $ en $ x $ ; in dit geval kunt u “regressie met de minste rechthoeken” gebruiken.
- schrijf $ Y = aX + b + \ epsilon $, zoals gewoonlijk;
- duid $ \ hat y_i = a x_i + b $ en $ \ hat x_i = {1 \ over a} (y_i – b) $ de schattingen van $ Y_i $ voorwaardelijk aan $ X = x_i $ en van $ X_i $ voorwaardelijk aan $ Y = y_i $;
- minimaliseer $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, wat leidt naar $$ \ hat y = \ mathrm {sign} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$
Hier is een illustratie met dezelfde gegevenspunten, voor elk punt wordt een “rechthoek” berekend als het product van de lengte van twee rode segmenten, en de som van rechthoeken is geminimaliseerd. Ik weet niet veel over de eigenschappen van deze regressie en ik vind niet veel met Google.
Opmerkingen
- Enkele opmerkingen: ( 1 ) Tenzij ik me vergis, lijkt het erop dat de ” regressie met de minste rechthoeken ” is gelijk aan de oplossing die wordt verkregen door de eerste hoofdcomponent op de matrix te nemen $ \ mathbf X = (\ mathbf y, \ mathbf x) $ na centreren en schalen naar hebben eenheidsvariantie en vervolgens terugsubstitutie. (vervolg)
- (vervolg) ( 2 ) Op deze manier bekeken, is het gemakkelijk te zien dat deze ” kleinste rechthoeken regressie ” is gelijk aan een vorm van orthogonale (of totale) kleinste kwadraten en dus ( 3 ) Een speciaal geval van Deming-regressie op de gecentreerde, herschaalde vectoren die $ \ delta = 1 $ aannemen. Orthogonale kleinste kwadraten kunnen worden beschouwd als ” regressie met de minste cirkels “.
- @cardinal Zeer interessante opmerkingen! (+1) Ik geloof dat de hoofdas (het minimaliseren van loodrechte afstanden tussen reg.lijn en alle punten, à la PCA) of verminderde hoofdasregressie , of type II-regressie zoals geïllustreerd in het lmodel2 R-pakket van P Legendre, zijn hier ook relevant omdat deze technieken worden gebruikt wanneer het ‘ moeilijk is om vertel welke rol (respons of voorspeller) elke variabele speelt of wanneer we rekening willen houden met meetfouten.
- @chl: (+1) Ja, ik denk dat je gelijk hebt en de Wikipedia-pagina op de totale kleinste kwadraten somt verschillende andere namen op voor dezelfde procedure, die ik niet allemaal ken. Het lijkt op zijn minst terug te gaan naar R. Frisch, Statistische confluentieanalyse door middel van volledige regressiesystemen , Universitetets Ø konomiske Instituut, 1934 waar het diagonale regressie heette.
- @cardinal Ik had voorzichtiger moeten zijn bij het lezen van het Wikipedia-artikel … Voor toekomstige referentie, hier is een foto genomen van Biostatistisch ontwerp en analyse met R , door M. Logan (Wiley, 2010; Fig. 8.4, p. 174), die de verschillende benaderingen samenvat, net zoals Elvis ‘ s mooie illustraties.
Answer
Even een korte opmerking over waarom je de helling kleiner ziet voor één regressie. Beide hellingen zijn afhankelijk van drie getallen: standaarddeviaties van $ x $ en $ y $ ($ s_ {x} $ en $ s_ {y} $), en correlatie tussen $ x $ en $ y $ ($ r $). De regressie met $ y $ als reactie heeft helling $ r \ frac {s_ {y}} {s_ {x}} $ en de regressie met $ x $ als reactie heeft helling $ r \ frac {s_ {x}} {s_ {y}} $, vandaar dat de verhouding van de eerste helling tot het omgekeerde van de tweede gelijk is aan $ r ^ 2 \ leq 1 $.
Dus hoe groter het verklaarde deel van de variantie, hoe dichter de hellingen verkregen uit elk geval. Merk op dat de proportie van de verklaarde variantie symmetrisch is en gelijk aan de kwadratische correlatie bij eenvoudige lineaire regressie.
Antwoord
Regressielijn is niet (altijd) hetzelfde als echte relatie
Mogelijk hebt u een “echte” causale relatie zoals
$$ y = a + bx + \ epsilon $$
maar aangepaste regressielijnen y ~ x
of x ~ y
betekenen niet hetzelfde als dat causale verband (zelfs als in de praktijk de uitdrukking voor een van de regressielijnen kan samenvallen met de uitdrukking voor het causale “ware” verband)
Nauwkeuriger verband tussen hellingen
Voor twee geschakelde eenvoudige lineaire regressies:
$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$
je kunt de hellingen als volgt relateren:
$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$
Dus de hellingen zijn niet elkaar omgekeerd.
Intuïtie
De reden is dat
- Regressielijnen en correlaties niet komt noodzakelijkerwijs één-op-één overeen met een oorzakelijk verband.
- Regressielijnen hebben directer betrekking op een voorwaardelijke kans of beste voorspelling.
Je kunt je voorstellen dat de voorwaardelijke kans betrekking heeft op de sterkte van de relatie. Regressielijnen weerspiegelen dit en de hellingen van de lijnen kunnen zowel ondiep zijn als de sterkte van de relatie klein is, of beide steil als de sterkte van de relatie sterk is. De hellingen zijn niet gewoon elkaars invers.
Voorbeeld
Als twee variabelen $ X $ en $ Y $ relateren tot elkaar door een (causale) lineaire relatie $$ Y = \ text {een klein beetje van $ X + $ veel of error} $$ Dan kun je je voorstellen dat het niet goed zou zijn om die relatie volledig om te keren voor het geval je $ X $ wilt uitdrukken gebaseerd op een gegeven waarde van $ Y $ .
In plaats van
$$ X = \ text {veel $ Y + $ een beetje fout} $$
het zou beter zijn om ook
$$ X = \ text {een klein beetje $ Y + $ veel fout} $$
Bekijk de volgende voorbeeldverdelingen met hun respectievelijke regressielijnen.De distributies zijn multivariate normaal met $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ en $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $
De voorwaardelijke verwachte waarden (wat u zou krijgen in een lineaire regressie) zijn
$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$
en in dit geval met $ X, Y $ een multivariate normale verdeling, dan zijn de marginale verdelingen
$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$
U kunt dus zie de variabele Y als een par t $ \ rho X $ en een deelruis met variantie $ 1- \ rho ^ 2 $ . Hetzelfde geldt andersom.
Hoe groter de correlatiecoëfficiënt $ \ rho $ , hoe dichter de twee lijnen zullen zijn. Maar hoe lager de correlatie, hoe minder sterk de relatie, hoe minder steil de lijnen zullen zijn (dit geldt voor beide regels Y ~ X
en X ~ Y
)
Reacties
- Dat is een uitstekende uitleg. Eenvoudig en intuïtief
Antwoord
Een eenvoudige manier om hiernaar te kijken, is door op te merken dat, als voor de ware model $ y = \ alpha + \ beta x + \ epsilon $ , u voert twee regressies uit:
- $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
- $ x = a_ {x \ sim y} + b_ {x \ sim y} y $
Dan gebruiken we $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :
$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$
Dus of u een steilere helling krijgt of niet, hangt af van de verhouding $ \ frac {var (y)} { var (x)} $ . Deze verhouding is gelijk aan, gebaseerd op het veronderstelde ware model:
$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$
Link met andere antwoorden
U kunt dit resultaat koppelen met de antwoorden van anderen, die zeiden dat wanneer $ R ^ 2 = 1 $ , dit het omgekeerde zou moeten zijn. Inderdaad, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , en ook $ b_ {y \ sim x} = \ beta $ (geen schattingsfout), dus:
$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$
Dus $ b_ {x \ sim y} = 1 / \ beta $
Antwoord
Het wordt interessant wanneer er ook ruis is op uw invoer (wat we zouden kunnen zeggen is altijd het geval, geen enkel commando of observatie is ooit perfect).
I hebben enkele simulaties gebouwd om het fenomeen te observeren, gebaseerd op een eenvoudige lineaire relatie $ x = y $, met Gaussische ruis op zowel x als y. Ik heb de waarnemingen als volgt gegenereerd (python-code):
x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)
Zie de verschillende resultaten (odr hier is orthogonale afstandsregressie, dwz hetzelfde als regressie met de minste rechthoeken):
Alle code staat erin:
https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd
Antwoord
Het korte antwoord
Het doel van een eenvoudige lineaire regressie is om de beste voorspellingen te doen van de y
variabele, gegeven waarden van de x
variabele. Dit is een ander doel dan de beste voorspelling van de x
variabele, gegeven waarden van de y
variabele.
Eenvoudige lineaire regressie van y ~ x
geeft u het “best” mogelijke model voor het voorspellen van y
gegeven x
. Als u dus een model voor x ~ y
aanpast en het algebraïsch omkeert, zou dat model op zijn best slechts zo goed kunnen presteren als het model voor y ~ x
. Maar het omkeren van een model dat geschikt is voor x ~ y
zal meestal slechter presteren bij het voorspellen van y
gegeven x
, vergeleken met het “optimale” y ~ x
-model, omdat het “omgekeerde x ~ y
-model” is gemaakt om een ander doel te bereiken.
Illustratie
Stel dat u de volgende dataset heeft:
Wanneer u een OLS-regressie uitvoert van y ~ x
, komt u met het volgende model
y = 0.167 + 1.5*x
Dit optimaliseert de voorspellingen van y
door de volgende voorspellingen te doen, die bijbehorende fouten hebben:
De voorspellingen van de OLS-regressie zijn optimaal in die zin dat de som van de waarden in de meest rechtse kolom (dwz de som van kwadraten) is zo klein als maar kan.
Als u een OLS-regressie uitvoert van x ~ y
, bedenk een ander model:
x = -0.07 + 0.64*y
Dit optimaliseert voorspellingen van x door de volgende voorspellingen te doen, met bijbehorende fouten.
Nogmaals, dit is optimaal in die zin dat de som van de waarden van de meest rechtse kolom zo klein mogelijk is (gelijk aan 0.071
).
Stel je voor dat je probeerde om het eerste model, y = 0.167 + 1.5*x
, gewoon om te keren met algebra, waardoor je het model x = -0.11 + 0.67*x
.
Dit zou u de volgende voorspellingen en bijbehorende fouten opleveren:
De som van de waarden in de meest rechtse kolom is 0.074
, wat groter is dan de corresponderende som van het model dat u krijgt door x op y te regresseren, dwz het x ~ y
-model. Met andere woorden, het “omgekeerde y ~ x
-model” doet een slechtere voorspelling van x dan het OLS-model van x ~ y
.