Mondjuk “s”, hogy létezik valamilyen “igaz” kapcsolat $ y $ és $ x $ között, ilyenek hogy $ y = ax + b + \ epsilon $, ahol $ a $ és $ b $ konstansok, a $ \ epsilon $ pedig normál zaj. Amikor véletlenszerűen generálok adatokat az R kódból: x <- 1:100; y <- ax + b + rnorm(length(x)) és ezután illeszkedik egy olyan modellhez, mint a y ~ x, nyilvánvalóan ésszerűen jó becsléseket kapok a $ a $ és $ b $ értékekre.

Ha megváltoztatom a szerepet a változók közül, mint a (x ~ y) -ben, majd $ y $ eredményét átírva $ x $ függvényévé, a kapott meredekség mindig meredekebb (vagy negatívabb, vagy annál nagyobb pozitív), mint amit a y ~ x regresszió becsül. Megpróbálom pontosan megérteni, miért van ez, és nagyra értékelném, ha bárki megérthetné, mi folyik ott .

Megjegyzések

  • Ez ‘ nem igaz általában. Talán ‘ ezt csak látja az adataiban. Illessze be ezt a kódot: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); R-be többször, és ‘ találja, hogy mindkét irányba megy.
  • Ez ‘ kicsit eltér attól, ami Leírtam. A példádban y egyáltalán nem volt ‘ ta függvénye, tehát ‘ nem igazán van ” lejtés ” (példámban a ‘ a ‘).
  • lm (y ~ x) illeszkedik a $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ modellhez a legkisebb négyzetekkel (egyenértékű az ML becsléssel, ha a hibák normálisak). Van egy lejtő.
  • Kérdését felteszik és megválaszolják (mintegy) a stats.stackexchange.com/questions/13126 és stats.stackexchange.com/questions/18434 . Úgy gondolom azonban, hogy még senki sem adott egyszerű, világos magyarázatot az (a) $ Y $ regresszió vs $ X $, (b) $ X $ regresszió és $ Y $ közötti összefüggésekre, (c) a korreláció elemzésére $ X $ és $ Y $ értéke, (d) a változók hibáinak regressziója $ X $ és $ Y $, és (e) kétváltozós Normal eloszlás illesztése $ (X, Y) $ értékre. Ez jó hely lenne egy ilyen kiállításhoz :-).
  • Természetesen a Makró helytálló: mivel x és y egyenértékű szerepet játszanak a kérdésben, melyik meredekség a szélsőségesebb, véletlenszerű kérdés. A geometria azonban (helytelenül) azt sugallja, hogy amikor x és y-t fordítunk a regresszióban, meg kell kapnunk az eredeti meredekség recipocal ját. Ez soha nem történik meg, kivéve, ha x és y lineárisan függenek. Ezt a kérdést úgy is értelmezhetjük, hogy miért kérdezzük.

Válasz

Adott $ n $ adatpont $ (x_i, y_i), i = 1,2, \ ldots n $, a síkban húzzunk egyeneset $ y = ax + b $. Ha $ ax_i + b $ -ot jósolunk a $ y_i $ $ \ hat {y} _i $ értékeként, akkor a hiba értéke $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, a négyzethiba $ (y_i-ax_i-b) ^ 2 $, és az teljes négyzet hiba $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Megkérdezzük

A $ a $ és $ b $ választása minimalizálja a $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Mivel $ (y_i-ax_i-b) $ a $ (x_i, y_i) $ függőleges távolsága a egyenes, olyan vonalat kérünk, hogy a pontok függőleges távolságainak négyzeteinek összege a lehető legkisebb legyen. Most a $ S $ a $ a $ és a $ b $ másodfokú függvénye, és akkor éri el a minimális értékét, ha $ a $ és $ b $ olyanok, hogy $$ \ begin {align *} \ frac {\ részleges S} {\ részleges a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ részleges S} {\ részleges b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ A második egyenletből $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ ahol $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ a $ y_i $ “s, illetve a $ x_i $” s aritmetikai átlagértéke. Az első egyenletbe behelyettesítve $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ jobbra) – \ mu_x ^ 2}. $$ Így az $ S $ -ot minimalizáló vonal kifejezhető $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1}) alakban. ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ bal (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ és a $ S $ minimális értéke $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ jobb) – \ mu_y ^ 2 \ jobb] \ bal [\ bal (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ jobb) – \ mu_x ^ 2 \ jobb ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ jobbra) – \ mu_x ^ 2}.$$

Ha felcseréljük a $ x $ és a $ y $ szerepkörét, húzzunk egy vonalat $ x = \ hat {a} y + \ hat {b} $, és kérjük meg a $ értékét \ hat {a} $ és $ \ hat {b} $, amelyek minimalizálják a $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ vagyis olyan vonalat szeretnénk, hogy a pontok egyenesektől a vízszintes távolságok négyzetének összege a lehető legkisebb legyen, akkor megkapjuk

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ és a minimális érték $ T $ értéke $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ jobbra) – \ mu_y ^ 2}. $$

Vegye figyelembe, hogy mindkét vonal áthalad a $ (\ mu_x, \ mu_y) $ ponton, de a lejtők $$ a = \ frac { \ balra (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ általában különböznek. Valójában, amint @whuber megjegyzi egy megjegyzésben, a lejtők megegyeznek, ha az összes $ (x_i, y_i) $ pont ugyanazon az egyenesen fekszik. Ennek megtekintéséhez vegye figyelembe, hogy $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

megjegyzések

  • Köszönöm! abs (korreláció) < 1 arról számol be, hogy miért volt a lejtő szisztematikusan meredekebb a fordított esetben.
  • (+1), de csak egy illusztrációval ellátott választ adtam hozzá annak, amit most mondtál, mivel geometrikus elmém van 🙂
  • Osztály válasza (+1)

Válasz

Csak Dilip válaszának szemléltetésére: a következő képeken

  • a fekete pontok adatpontok;
  • a bal oldalon a fekete vonal az y ~ x által kapott regressziós vonal, amely minimalizálja a piros szegmensek hosszának négyzetét;
  • a jobb oldalon a fekete vonal a x ~ y által kapott regressziós vonal, amely minimalizálja a vörös szegmensek hosszának négyzetét.

regressziós vonalak

Szerkesztés (a legkisebb téglalap regresszió)

Ha nincs természetes módja a “válasz” és a “kovariátum” kiválasztásának, de a két változó egymástól függ, akkor érdemes szimmetrikus szerepet megőriznie a $ y $ és $ x $ esetében ; ebben az esetben a “legkisebb téglalap regressziót” használhatja.

  • írja be a $ Y = aX + b + \ epsilon $ -t, a szokásos módon;
  • jelölje $ \ hat y_i = a x_i + b $ és $ \ hat x_i = {1 \ a} felett (y_i – b) $ a $ Y_i $ becsült értéke $ X = x_i $ és $ X_i $ feltételes $ Y = y_i $;
  • minimalizálja a $ \ sum_i | értéket x_i – \ kalap x_i | \ cdot | y_i – \ hat y_i | $, ami $$ \ hat y = \ mathrm {sign} \ balra vezet (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ kalap \ sigma_x} (x- \ overline x) + \ overline y. $$

Itt egy illusztráció ugyanazokkal az adatpontokkal, minden egyes pontra egy “téglalap” kerül kiszámításra két piros szegmens hosszának szorzataként, a téglalapok összege pedig minimalizálva. Nem sokat tudok ennek a regressziónak a tulajdonságairól, és nem is nagyon találok a google-nél.

legkevesebb téglalapok

Megjegyzések

  • Néhány megjegyzés: ( 1 ) Hacsak nem tévedek, úgy tűnik, hogy a ” legkisebb téglalap regresszió ” egyenértékű azzal a megoldással, amelyet az első főkomponens felvételével kaptunk a $ \ mathbf X = (\ mathbf y, \ mathbf x) $ mátrixon, miután központosítottuk és újra skáláztuk egységnyi varianciával rendelkezik, majd visszahelyettesíti. (folyt.)
  • (folyt.) ( 2 ) Így tekintve könnyen belátható, hogy ez a ” legkisebb téglalap a regresszió ” egyenértékű az ortogonális (vagy összesen) legkisebb négyzetek és így ( 3 ) A regresszió csökkentésének speciális esete a középre helyezett, átméretezett vektorokon, amelyek $ \ delta = 1 $ értéket vesznek fel. Az ortogonális legkisebb négyzetek ” legkisebb körök regressziójának tekinthetők “.
  • @cardinal Nagyon érdekes megjegyzések! (+1) Úgy gondolom, hogy a fő tengely (a reg. Közötti merőleges távolságok minimalizálása)vonal és az összes pont, à la PCA) vagy csökkentette a főtengely regresszióját , vagy a II. típusú regressziót a P Legendre által készített lmodel2 R csomag itt is releváns, mivel ezeket a technikákat akkor alkalmazzák, amikor ‘ nehezen elérhető mondja meg, hogy az egyes változók milyen szerepet (válasz vagy előrejelző) játszanak, vagy mikor akarunk számolni a mérési hibákkal.
  • @chl: (+1) Igen, úgy gondolom, hogy igaza van, és a Wikipedia oldal a legkisebb négyzeteken ugyanazon eljáráshoz számos más nevet sorol fel, amelyek közül nem mindegyiket ismerem. Úgy tűnik, visszatér legalább R. Frischre, Statisztikai összefolyás elemzése teljes regressziós rendszerek segítségével , Universitetets Ø konomiske Instituut, 1934, ahol átlós regresszió nak hívták.
  • @cardinal A Wikipedia szócikk elolvasásakor óvatosabbnak kellett volna lennem … jövőbeni referencia, itt van egy kép , amely a biostatisztikai tervezésről és elemzésről R segítségével készült. írta: M. Logan (Wiley, 2010; 8.4. ábra, 174. oldal), amely összefoglalja a különböző megközelítéseket, hasonlóan Elvis ‘ szép illusztrációihoz.

Válasz

Csak egy rövid megjegyzés arról, hogy miért látod kisebbnek a meredekséget egy regresszió esetén. Mindkét lejtés három számtól függ: a $ x $ és a $ y $ ($ s_ {x} $ és $ s_ {y} $) standard eltérésektől, valamint a korrelációtól $ x $ és $ y $ ($ r $) között. A $ y $ válaszként adott regresszió $ r \ frac {s_ {y}} {s_ {x}} $ meredekségű, a $ x $ értékű regresszió pedig $ r \ frac {s_ {x}} {s_ {y}} $, ennélfogva az első meredekség és a második reciprok aránya megegyezik a $ r ^ 2 \ leq 1 $ értékkel.

Tehát minél nagyobb a kifejtett varianciaarány, annál közelebb van annál az egyes esetekből nyert lejtők. Vegye figyelembe, hogy a megmagyarázott variancia aránya szimmetrikus és egyenlő az egyszerű lineáris regresszió négyzetkorrelációjával.

Válasz

A regressziós vonal nem (mindig) ugyanaz, mint az igaz kapcsolat

Lehet, hogy van valami “igaz” oksági összefüggése, például

$$ y = a + bx + \ epsilon $$

de az illesztett regressziós sorok y ~ x vagy x ~ y nem azt jelentik, hogy ugyanazok mivel ez az okozati összefüggés (még akkor is, ha a gyakorlatban a regressziós vonal egyik kifejezése egybeeshet az oksági “igaz” kapcsolat kifejezésével)


A lejtők közötti pontosabb kapcsolat

Két váltott egyszerű lineáris regresszió esetén:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

a lejtőket a következőképpen kapcsolhatja össze:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Tehát a lejtők vannak nem fordítva.


Intuíció

Ennek oka az, hogy

  • A regressziós vonalak és összefüggések nem feltétlenül felel meg az egy-egy ok-okozati összefüggésnek.
  • A regressziós vonalak közvetlenebben kapcsolódnak egy feltételes valószínűséghez vagy a legjobb előrejelzéshez.

Elképzelheti, hogy a feltételes valószínűség a kapcsolat erősségére vonatkozik. A regressziós vonalak ezt tükrözik, és a vonalak meredekségei lehetnek sekélyek, ha a kapcsolat erőssége kicsi, vagy mindkettő meredek, ha a kapcsolat erőssége erős. A lejtők nem egyszerűen egymásnak inverzek.

Példa

Ha két változó $ X $ és $ Y $ valamilyen (ok-okozati) lineáris összefüggéssel kapcsolódnak egymáshoz $$ Y = \ text {egy csomó $ X + sok a sok hibája} $$ Akkor elképzelheti, hogy nem lenne jó ezt a kapcsolatot teljesen megfordítani, ha $ X $ -t szeretne kifejezni a $ Y $ megadott értéke alapján.

A

$$ X = \ text {sok $ Y + $ egy kis hiba} $$

jobb lenne használni is

$$ X = \ text {egy kis $ Y + $ sok hiba} $$

Lásd a következő példákat a disztribúciókkal a megfelelő regressziós vonalak.Az eloszlások többváltozósak, normál értékek: $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ és $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

példa

A feltételes várható értékek (amit kapna egy lineáris regresszióban)

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

és ebben az esetben $ X, Y $ többváltozós normál eloszlás, akkor a marginális eloszlások

$$ \ begin {tömb} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {tömb} $$

Tehát az Y változót parnak tekintjük t $ \ rho X $ és egy részzaj varianciával $ 1- \ rho ^ 2 $ . Ugyanez fordítva is igaz.

Minél nagyobb a $ \ rho $ korrelációs együttható, annál közelebb lesz a két vonal. De minél alacsonyabb a korreláció, annál kevésbé erős a kapcsolat, annál kevésbé meredekek a vonalak (ez igaz a mindkét sorra Y ~ X és X ~ Y)

Megjegyzések

  • Ez remek magyarázat. Egyszerű és intuitív

Válasz

Ennek egyszerű megnézése az, ha megjegyezzük, hogy ha az igaz model $ y = \ alpha + \ beta x + \ epsilon $ , két regressziót futtat:

  • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
  • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Akkor a $ b_ {y \ sim x használatával } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Tehát az, hogy meredekebb lejtőt kap-e vagy sem, csak a $ \ frac {var (y)} {arányától függ var (x)} $ . Ez az arány megegyezik a feltételezett igaz modell alapján:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Összekapcsolás más válaszokkal

Ezt az eredményt összekapcsolhatja mások válaszaival, akik azt mondták, hogy amikor $ R ^ 2 = 1 $ , annak kölcsönösnek kell lennie. Valóban, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , valamint $ b_ {y \ sim x} = \ beta $ (nincs becslési hiba), ezért:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

Tehát $ b_ {x \ sim y} = 1 / \ beta $

Válasz

Akkor válik érdekessé, ha zaj van a bemenetein is (amiről azt állíthatjuk, hogy ez mindig így van, egyetlen parancs vagy megfigyelés sem tökéletes).

I felépítettek néhány szimulációt a jelenség megfigyelésére, egy egyszerű lineáris összefüggés alapján, $ x = y $, Gauss-zajjal mind x-en, mind y-n. A megfigyeléseket a következőképpen generáltam (python kód):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

Nézze meg a különböző eredményeket (odr itt ortogonális távolság regresszió, azaz mint a legkisebb téglalap regresszió):

írja ide a kép leírását

Az összes kód ott van:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Válasz

A rövid válasz

Az egyszerű lineáris regresszió célja, hogy a legjobb előrejelzéssel álljon elő a y változó, a x változó megadott értékei. Ez más cél, mint a x változó legjobb előrejelzésének megkísérlése, a y változó adott értékei alapján.

A y ~ x egyszerű lineáris regressziója a lehető “legjobb” modellt nyújtja a y előrejelzéséhez, mivel a x. Ennélfogva, ha illeszkedik egy modellhez a x ~ y számára, és algebrailag megfordítja, akkor ez a modell a legjobb esetben is csak a y ~ x. De a x ~ y számára megfelelő modell invertálása általában rosszabbul jár a y előrejelzésében, mivel a x az “optimális” y ~ x modellhez képest, mert az “invertált x ~ y modellt egy másik cél teljesítése érdekében hozták létre.

Illusztráció

Képzelje el, hogy a következő adatkészlet van:

enter képleírás itt

Amikor OLS regressziót futtat y ~ x, akkor a következő modellel áll elő

y = 0.167 + 1.5*x 

Ez optimalizálja a y előrejelzéseit a következő előrejelzésekkel, amelyekhez társított hibák tartoznak:

írja ide a kép leírását

Az OLS regresszió jóslatai optimálisak abban az értelemben, hogy A jobb szélső oszlopban szereplő értékek összege (azaz a négyzetek összege) a lehető legkisebb.

Amikor OLS regressziót futtat x ~ y, akkor állítson elő egy másik modellt:

x = -0.07 + 0.64*y 

Ez optimalizálja az x előrejelzését azáltal, hogy a következő előrejelzéseket készíti el, kapcsolódó hibákkal. id = “a48b6440ac”>

írja be a kép leírását ion itt

Ez megint optimális abban az értelemben, hogy a jobb szélső oszlop értékeinek összege a lehető legkisebb (egyenlő: 0.071).

Most képzelje el, hogy az első modellt, y = 0.167 + 1.5*x az algebra használatával próbálta megfordítani, megadva a x = -0.11 + 0.67*x.

Ez a következő előrejelzéseket és kapcsolódó hibákat eredményezheti:

írja ide a kép leírását

A jobb szélső oszlopban szereplő értékek összege 0.074, amely nagyobb, mint a megfelelő összeg abból a modellből, amelyet az x regressziója y-nél kap, azaz a x ~ y modellt. Más szavakkal, az “invertált y ~ x modell” rosszabb munkát végez az x előrejelzésében, mint az x ~ y OLS-modellje.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük