Mondjuk “s”, hogy létezik valamilyen “igaz” kapcsolat $ y $ és $ x $ között, ilyenek hogy $ y = ax + b + \ epsilon $, ahol $ a $ és $ b $ konstansok, a $ \ epsilon $ pedig normál zaj. Amikor véletlenszerűen generálok adatokat az R kódból: x <- 1:100; y <- ax + b + rnorm(length(x))
és ezután illeszkedik egy olyan modellhez, mint a y ~ x
, nyilvánvalóan ésszerűen jó becsléseket kapok a $ a $ és $ b $ értékekre.
Ha megváltoztatom a szerepet a változók közül, mint a (x ~ y)
-ben, majd $ y $ eredményét átírva $ x $ függvényévé, a kapott meredekség mindig meredekebb (vagy negatívabb, vagy annál nagyobb pozitív), mint amit a y ~ x
regresszió becsül. Megpróbálom pontosan megérteni, miért van ez, és nagyra értékelném, ha bárki megérthetné, mi folyik ott .
Megjegyzések
- Ez ‘ nem igaz általában. Talán ‘ ezt csak látja az adataiban. Illessze be ezt a kódot: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); R-be többször, és ‘ találja, hogy mindkét irányba megy.
- Ez ‘ kicsit eltér attól, ami Leírtam. A példádban y egyáltalán nem volt ‘ ta függvénye, tehát ‘ nem igazán van ” lejtés ” (példámban a ‘ a ‘).
- lm (y ~ x) illeszkedik a $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ modellhez a legkisebb négyzetekkel (egyenértékű az ML becsléssel, ha a hibák normálisak). Van egy lejtő.
- Kérdését felteszik és megválaszolják (mintegy) a stats.stackexchange.com/questions/13126 és stats.stackexchange.com/questions/18434 . Úgy gondolom azonban, hogy még senki sem adott egyszerű, világos magyarázatot az (a) $ Y $ regresszió vs $ X $, (b) $ X $ regresszió és $ Y $ közötti összefüggésekre, (c) a korreláció elemzésére $ X $ és $ Y $ értéke, (d) a változók hibáinak regressziója $ X $ és $ Y $, és (e) kétváltozós Normal eloszlás illesztése $ (X, Y) $ értékre. Ez jó hely lenne egy ilyen kiállításhoz :-).
- Természetesen a Makró helytálló: mivel x és y egyenértékű szerepet játszanak a kérdésben, melyik meredekség a szélsőségesebb, véletlenszerű kérdés. A geometria azonban (helytelenül) azt sugallja, hogy amikor x és y-t fordítunk a regresszióban, meg kell kapnunk az eredeti meredekség recipocal ját. Ez soha nem történik meg, kivéve, ha x és y lineárisan függenek. Ezt a kérdést úgy is értelmezhetjük, hogy miért kérdezzük.
Válasz
Adott $ n $ adatpont $ (x_i, y_i), i = 1,2, \ ldots n $, a síkban húzzunk egyeneset $ y = ax + b $. Ha $ ax_i + b $ -ot jósolunk a $ y_i $ $ \ hat {y} _i $ értékeként, akkor a hiba értéke $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, a négyzethiba $ (y_i-ax_i-b) ^ 2 $, és az teljes négyzet hiba $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Megkérdezzük
A $ a $ és $ b $ választása minimalizálja a $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?
Mivel $ (y_i-ax_i-b) $ a $ (x_i, y_i) $ függőleges távolsága a egyenes, olyan vonalat kérünk, hogy a pontok függőleges távolságainak négyzeteinek összege a lehető legkisebb legyen. Most a $ S $ a $ a $ és a $ b $ másodfokú függvénye, és akkor éri el a minimális értékét, ha $ a $ és $ b $ olyanok, hogy $$ \ begin {align *} \ frac {\ részleges S} {\ részleges a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ részleges S} {\ részleges b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ A második egyenletből $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ ahol $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ a $ y_i $ “s, illetve a $ x_i $” s aritmetikai átlagértéke. Az első egyenletbe behelyettesítve $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ jobbra) – \ mu_x ^ 2}. $$ Így az $ S $ -ot minimalizáló vonal kifejezhető $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1}) alakban. ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ bal (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ és a $ S $ minimális értéke $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ jobb) – \ mu_y ^ 2 \ jobb] \ bal [\ bal (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ jobb) – \ mu_x ^ 2 \ jobb ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ jobbra) – \ mu_x ^ 2}.$$
Ha felcseréljük a $ x $ és a $ y $ szerepkörét, húzzunk egy vonalat $ x = \ hat {a} y + \ hat {b} $, és kérjük meg a $ értékét \ hat {a} $ és $ \ hat {b} $, amelyek minimalizálják a $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ vagyis olyan vonalat szeretnénk, hogy a pontok egyenesektől a vízszintes távolságok négyzetének összege a lehető legkisebb legyen, akkor megkapjuk
$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ és a minimális érték $ T $ értéke $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ jobbra) – \ mu_y ^ 2}. $$
Vegye figyelembe, hogy mindkét vonal áthalad a $ (\ mu_x, \ mu_y) $ ponton, de a lejtők $$ a = \ frac { \ balra (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ általában különböznek. Valójában, amint @whuber megjegyzi egy megjegyzésben, a lejtők megegyeznek, ha az összes $ (x_i, y_i) $ pont ugyanazon az egyenesen fekszik. Ennek megtekintéséhez vegye figyelembe, hogy $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$
megjegyzések
- Köszönöm! abs (korreláció) < 1 arról számol be, hogy miért volt a lejtő szisztematikusan meredekebb a fordított esetben.
- (+1), de csak egy illusztrációval ellátott választ adtam hozzá annak, amit most mondtál, mivel geometrikus elmém van 🙂
- Osztály válasza (+1)
Válasz
Csak Dilip válaszának szemléltetésére: a következő képeken
- a fekete pontok adatpontok;
- a bal oldalon a fekete vonal az
y ~ x
által kapott regressziós vonal, amely minimalizálja a piros szegmensek hosszának négyzetét; - a jobb oldalon a fekete vonal a
x ~ y
által kapott regressziós vonal, amely minimalizálja a vörös szegmensek hosszának négyzetét.
Szerkesztés (a legkisebb téglalap regresszió)
Ha nincs természetes módja a “válasz” és a “kovariátum” kiválasztásának, de a két változó egymástól függ, akkor érdemes szimmetrikus szerepet megőriznie a $ y $ és $ x $ esetében ; ebben az esetben a “legkisebb téglalap regressziót” használhatja.
- írja be a $ Y = aX + b + \ epsilon $ -t, a szokásos módon;
- jelölje $ \ hat y_i = a x_i + b $ és $ \ hat x_i = {1 \ a} felett (y_i – b) $ a $ Y_i $ becsült értéke $ X = x_i $ és $ X_i $ feltételes $ Y = y_i $;
- minimalizálja a $ \ sum_i | értéket x_i – \ kalap x_i | \ cdot | y_i – \ hat y_i | $, ami $$ \ hat y = \ mathrm {sign} \ balra vezet (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ kalap \ sigma_x} (x- \ overline x) + \ overline y. $$
Itt egy illusztráció ugyanazokkal az adatpontokkal, minden egyes pontra egy “téglalap” kerül kiszámításra két piros szegmens hosszának szorzataként, a téglalapok összege pedig minimalizálva. Nem sokat tudok ennek a regressziónak a tulajdonságairól, és nem is nagyon találok a google-nél.
Megjegyzések
- Néhány megjegyzés: ( 1 ) Hacsak nem tévedek, úgy tűnik, hogy a ” legkisebb téglalap regresszió ” egyenértékű azzal a megoldással, amelyet az első főkomponens felvételével kaptunk a $ \ mathbf X = (\ mathbf y, \ mathbf x) $ mátrixon, miután központosítottuk és újra skáláztuk egységnyi varianciával rendelkezik, majd visszahelyettesíti. (folyt.)
- (folyt.) ( 2 ) Így tekintve könnyen belátható, hogy ez a ” legkisebb téglalap a regresszió ” egyenértékű az ortogonális (vagy összesen) legkisebb négyzetek és így ( 3 ) A regresszió csökkentésének speciális esete a középre helyezett, átméretezett vektorokon, amelyek $ \ delta = 1 $ értéket vesznek fel. Az ortogonális legkisebb négyzetek ” legkisebb körök regressziójának tekinthetők “.
- @cardinal Nagyon érdekes megjegyzések! (+1) Úgy gondolom, hogy a fő tengely (a reg. Közötti merőleges távolságok minimalizálása)vonal és az összes pont, à la PCA) vagy csökkentette a főtengely regresszióját , vagy a II. típusú regressziót a P Legendre által készített lmodel2 R csomag itt is releváns, mivel ezeket a technikákat akkor alkalmazzák, amikor ‘ nehezen elérhető mondja meg, hogy az egyes változók milyen szerepet (válasz vagy előrejelző) játszanak, vagy mikor akarunk számolni a mérési hibákkal.
- @chl: (+1) Igen, úgy gondolom, hogy igaza van, és a Wikipedia oldal a legkisebb négyzeteken ugyanazon eljáráshoz számos más nevet sorol fel, amelyek közül nem mindegyiket ismerem. Úgy tűnik, visszatér legalább R. Frischre, Statisztikai összefolyás elemzése teljes regressziós rendszerek segítségével , Universitetets Ø konomiske Instituut, 1934, ahol átlós regresszió nak hívták.
- @cardinal A Wikipedia szócikk elolvasásakor óvatosabbnak kellett volna lennem … jövőbeni referencia, itt van egy kép , amely a biostatisztikai tervezésről és elemzésről R segítségével készült. írta: M. Logan (Wiley, 2010; 8.4. ábra, 174. oldal), amely összefoglalja a különböző megközelítéseket, hasonlóan Elvis ‘ szép illusztrációihoz.
Válasz
Csak egy rövid megjegyzés arról, hogy miért látod kisebbnek a meredekséget egy regresszió esetén. Mindkét lejtés három számtól függ: a $ x $ és a $ y $ ($ s_ {x} $ és $ s_ {y} $) standard eltérésektől, valamint a korrelációtól $ x $ és $ y $ ($ r $) között. A $ y $ válaszként adott regresszió $ r \ frac {s_ {y}} {s_ {x}} $ meredekségű, a $ x $ értékű regresszió pedig $ r \ frac {s_ {x}} {s_ {y}} $, ennélfogva az első meredekség és a második reciprok aránya megegyezik a $ r ^ 2 \ leq 1 $ értékkel.
Tehát minél nagyobb a kifejtett varianciaarány, annál közelebb van annál az egyes esetekből nyert lejtők. Vegye figyelembe, hogy a megmagyarázott variancia aránya szimmetrikus és egyenlő az egyszerű lineáris regresszió négyzetkorrelációjával.
Válasz
A regressziós vonal nem (mindig) ugyanaz, mint az igaz kapcsolat
Lehet, hogy van valami “igaz” oksági összefüggése, például
$$ y = a + bx + \ epsilon $$
de az illesztett regressziós sorok y ~ x
vagy x ~ y
nem azt jelentik, hogy ugyanazok mivel ez az okozati összefüggés (még akkor is, ha a gyakorlatban a regressziós vonal egyik kifejezése egybeeshet az oksági “igaz” kapcsolat kifejezésével)
A lejtők közötti pontosabb kapcsolat
Két váltott egyszerű lineáris regresszió esetén:
$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$
a lejtőket a következőképpen kapcsolhatja össze:
$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$
Tehát a lejtők vannak nem fordítva.
Intuíció
Ennek oka az, hogy
- A regressziós vonalak és összefüggések nem feltétlenül felel meg az egy-egy ok-okozati összefüggésnek.
- A regressziós vonalak közvetlenebben kapcsolódnak egy feltételes valószínűséghez vagy a legjobb előrejelzéshez.
Elképzelheti, hogy a feltételes valószínűség a kapcsolat erősségére vonatkozik. A regressziós vonalak ezt tükrözik, és a vonalak meredekségei lehetnek sekélyek, ha a kapcsolat erőssége kicsi, vagy mindkettő meredek, ha a kapcsolat erőssége erős. A lejtők nem egyszerűen egymásnak inverzek.
Példa
Ha két változó $ X $ és $ Y $ valamilyen (ok-okozati) lineáris összefüggéssel kapcsolódnak egymáshoz $$ Y = \ text {egy csomó $ X + sok a sok hibája} $$ Akkor elképzelheti, hogy nem lenne jó ezt a kapcsolatot teljesen megfordítani, ha $ X $ -t szeretne kifejezni a $ Y $ megadott értéke alapján.
A
$$ X = \ text {sok $ Y + $ egy kis hiba} $$
jobb lenne használni is
$$ X = \ text {egy kis $ Y + $ sok hiba} $$
Lásd a következő példákat a disztribúciókkal a megfelelő regressziós vonalak.Az eloszlások többváltozósak, normál értékek: $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ és $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $
A feltételes várható értékek (amit kapna egy lineáris regresszióban)
$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$
és ebben az esetben $ X, Y $ többváltozós normál eloszlás, akkor a marginális eloszlások
$$ \ begin {tömb} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {tömb} $$
Tehát az Y változót parnak tekintjük t $ \ rho X $ és egy részzaj varianciával $ 1- \ rho ^ 2 $ . Ugyanez fordítva is igaz.
Minél nagyobb a $ \ rho $ korrelációs együttható, annál közelebb lesz a két vonal. De minél alacsonyabb a korreláció, annál kevésbé erős a kapcsolat, annál kevésbé meredekek a vonalak (ez igaz a mindkét sorra Y ~ X
és X ~ Y
)
Megjegyzések
- Ez remek magyarázat. Egyszerű és intuitív
Válasz
Ennek egyszerű megnézése az, ha megjegyezzük, hogy ha az igaz model $ y = \ alpha + \ beta x + \ epsilon $ , két regressziót futtat:
- $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
- $ x = a_ {x \ sim y} + b_ {x \ sim y} y $
Akkor a $ b_ {y \ sim x használatával } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :
$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$
Tehát az, hogy meredekebb lejtőt kap-e vagy sem, csak a $ \ frac {var (y)} {arányától függ var (x)} $ . Ez az arány megegyezik a feltételezett igaz modell alapján:
$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$
Összekapcsolás más válaszokkal
Ezt az eredményt összekapcsolhatja mások válaszaival, akik azt mondták, hogy amikor $ R ^ 2 = 1 $ , annak kölcsönösnek kell lennie. Valóban, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , valamint $ b_ {y \ sim x} = \ beta $ (nincs becslési hiba), ezért:
$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$
Tehát $ b_ {x \ sim y} = 1 / \ beta $
Válasz
Akkor válik érdekessé, ha zaj van a bemenetein is (amiről azt állíthatjuk, hogy ez mindig így van, egyetlen parancs vagy megfigyelés sem tökéletes).
I felépítettek néhány szimulációt a jelenség megfigyelésére, egy egyszerű lineáris összefüggés alapján, $ x = y $, Gauss-zajjal mind x-en, mind y-n. A megfigyeléseket a következőképpen generáltam (python kód):
x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)
Nézze meg a különböző eredményeket (odr itt ortogonális távolság regresszió, azaz mint a legkisebb téglalap regresszió):
Az összes kód ott van:
https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd
Válasz
A rövid válasz
Az egyszerű lineáris regresszió célja, hogy a legjobb előrejelzéssel álljon elő a y
változó, a x
változó megadott értékei. Ez más cél, mint a x
változó legjobb előrejelzésének megkísérlése, a y
változó adott értékei alapján.
A y ~ x
egyszerű lineáris regressziója a lehető “legjobb” modellt nyújtja a y
előrejelzéséhez, mivel a x
. Ennélfogva, ha illeszkedik egy modellhez a x ~ y
számára, és algebrailag megfordítja, akkor ez a modell a legjobb esetben is csak a y ~ x
. De a x ~ y
számára megfelelő modell invertálása általában rosszabbul jár a y
előrejelzésében, mivel a x
az “optimális” y ~ x
modellhez képest, mert az “invertált x ~ y
modellt egy másik cél teljesítése érdekében hozták létre.
Illusztráció
Képzelje el, hogy a következő adatkészlet van:
Amikor OLS regressziót futtat y ~ x
, akkor a következő modellel áll elő
y = 0.167 + 1.5*x
Ez optimalizálja a y
előrejelzéseit a következő előrejelzésekkel, amelyekhez társított hibák tartoznak:
Az OLS regresszió jóslatai optimálisak abban az értelemben, hogy A jobb szélső oszlopban szereplő értékek összege (azaz a négyzetek összege) a lehető legkisebb.
Amikor OLS regressziót futtat x ~ y
, akkor állítson elő egy másik modellt:
x = -0.07 + 0.64*y
Ez optimalizálja az x előrejelzését azáltal, hogy a következő előrejelzéseket készíti el, kapcsolódó hibákkal. id = “a48b6440ac”>
Ez megint optimális abban az értelemben, hogy a jobb szélső oszlop értékeinek összege a lehető legkisebb (egyenlő: 0.071
).
Most képzelje el, hogy az első modellt, y = 0.167 + 1.5*x
az algebra használatával próbálta megfordítani, megadva a x = -0.11 + 0.67*x
.
Ez a következő előrejelzéseket és kapcsolódó hibákat eredményezheti:
A jobb szélső oszlopban szereplő értékek összege 0.074
, amely nagyobb, mint a megfelelő összeg abból a modellből, amelyet az x regressziója y-nél kap, azaz a x ~ y
modellt. Más szavakkal, az “invertált y ~ x
modell” rosszabb munkát végez az x előrejelzésében, mint az x ~ y
OLS-modellje.