Powiedzmy, że istnieje „prawdziwa” zależność między $ y $ a $ x $ takimi że $ y = ax + b + \ epsilon $, gdzie $ a $ i $ b $ to stałe, a $ \ epsilon $ to iid normalny szum. Kiedy losowo generuję dane z tego kodu R: x <- 1:100; y <- ax + b + rnorm(length(x))
a następnie dopasowuję model taki jak y ~ x
, oczywiście otrzymuję dość dobre szacunki dla $ a $ i $ b $.
Jeśli zmienię rolę zmiennych, jak w (x ~ y)
, jednakże, a następnie przepisując wynik na $ y $ jako funkcję $ x $, wynikowe nachylenie jest zawsze bardziej strome (albo bardziej ujemne, albo bardziej pozytywny) niż oszacowany przez regresję y ~ x
. Próbuję dokładnie zrozumieć, dlaczego tak jest i byłbym wdzięczny, gdyby ktokolwiek mógł dać mi intuicję, co się tam dzieje .
Komentarze
- To ' nie prawda w ogóle. Być może ' widzisz to właśnie w swoich danych. Wklej ten kod: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); do R kilka razy i ' przekonasz się, że działa to w obie strony.
- To ' jest trochę inne niż Opisywałem. W Twoim przykładzie w ogóle nie było ' funkcji x, więc ' tak naprawdę nie ma ” slope ” (w moim przykładzie ' a ').
- lm (y ~ x) pasuje do modelu $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ metodą najmniejszych kwadratów (odpowiednik oszacowania ML, gdy błędy są iid normalne). Jest nachylenie.
- Twoje pytanie jest zadawane i udzielane (w pewnym sensie) na stats.stackexchange.com/questions/13126 i stats.stackexchange.com/questions/18434 . Uważam jednak, że nikt jeszcze nie wniósł prostego, jasnego wyjaśnienia zależności między (a) regresją $ Y $ vs $ X $, (b) regresją $ X $ vs $ Y $, (c) analizą korelacji z $ X $ i $ Y $, (d) regresja błędów w zmiennych $ X $ i $ Y $ oraz (e) dopasowanie dwuwymiarowego rozkładu normalnego do $ (X, Y) $. To byłoby dobre miejsce na taką ekspozycję :-).
- Oczywiście makro ma rację: ponieważ xiy odgrywają równoważne role w pytaniu, które nachylenie jest bardziej ekstremalne, jest kwestią przypadku. Jednak geometria sugeruje (niepoprawnie), że kiedy odwracamy xiy w regresji, powinniśmy otrzymać przepisokal oryginalnego nachylenia. To się nigdy nie zdarza, chyba że x i y są liniowo zależne. To pytanie można interpretować jako pytanie dlaczego.
Odpowiedź
Biorąc pod uwagę $ n $ punktów danych $ (x_i, y_i), i = 1,2, \ ldots n $, w płaszczyźnie narysujmy prostą $ y = ax + b $. Jeśli przewidujemy $ ax_i + b $ jako wartość $ \ hat {y} _i $ wynoszącą $ y_i $, to błąd to $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, błąd do kwadratu to $ (y_i-ax_i-b) ^ 2 $, a całkowity błąd do kwadratu $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Pytamy
Jaki wybór $ a $ i $ b $ minimalizuje $ S = \ Displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?
Ponieważ $ (y_i-ax_i-b) $ jest pionową odległością $ (x_i, y_i) $ od prostą, prosimy o taką prostą, aby suma kwadratów pionowych odległości punktów od prostej była jak najmniejsza. Teraz $ S $ jest funkcją kwadratową zarówno $ a $, jak i $ b $ i osiąga swoją minimalną wartość, gdy $ a $ i $ b $ są takie, że $$ \ begin {align *} \ frac {\ Part S} {\ częściowe a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ Partial S} {\ Part b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Z drugiego równania otrzymujemy $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ gdzie $ \ Displaystyle \ mu_y = \ Frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ Frac {1} {n } \ sum_ {i = 1} ^ n x_i $ to średnie arytmetyczne wartości odpowiednio $ y_i $ „s i $ x_i $” s. Podstawiając do pierwszego równania, otrzymujemy $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Zatem linia, która minimalizuje $ S $ może być wyrażona jako $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$, a minimalna wartość $ S $ to $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$
Jeśli zamienimy role $ x $ i $ y $, narysuj linię $ x = \ hat {a} y + \ hat {b} $ i poproś o wartości $ \ hat {a} $ i $ \ hat {b} $, które minimalizują $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ to znaczy chcemy, aby linia była taka, aby suma kwadratów poziomych odległości punktów od linii była jak najmniejsza, wtedy otrzymujemy
$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ i minimalna wartość z $ T $ to $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$
Zauważ, że obie linie przechodzą przez punkt $ (\ mu_x, \ mu_y) $, ale nachylenia są $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ są ogólnie różne. Rzeczywiście, jak podkreśla @whuber w komentarzu, nachylenia są takie same, gdy wszystkie punkty $ (x_i, y_i) $ leżą na tej samej linii prostej. Aby to zobaczyć, zwróć uwagę, że $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$
Komentarze
- Dzięki! abs (korelacja) < 1 wyjaśnia, dlaczego nachylenie było systematycznie bardziej strome w odwróconym przypadku.
- (+1) ale dodałem odpowiedź z tylko ilustracją tego, co właśnie powiedziałeś, ponieważ mam geometryczny umysł 🙂
- Class response (+1)
Answer
Żeby zilustrować odpowiedź Dilipa: na poniższych ilustracjach
- czarne kropki to punkty danych;
- po lewej stronie czarna linia to linia regresji uzyskana przez
y ~ x
, co minimalizuje kwadraty długości czerwonych odcinków; - po prawej stronie czarna linia to linia regresji uzyskana przez
x ~ y
, co minimalizuje kwadraty długości czerwonych odcinków.
Edytuj (regresja najmniej prostokątów)
Jeśli nie ma naturalnego sposobu na wybranie „odpowiedzi” i „współzmiennej”, ale raczej te dwie zmienne są współzależne, możesz chcieć zachować symetryczną rolę dla $ y $ i $ x $ ; w tym przypadku możesz użyć regresji „najmniejszych prostokątów”.
- wpisz $ Y = aX + b + \ epsilon $, jak zwykle;
- oznacz $ \ hat y_i = a x_i + b $ i $ \ hat x_i = {1 \ ponad a} (y_i – b) $ oszacowania $ Y_i $ warunkowe na $ X = x_i $ i $ X_i $ warunkowe na $ Y = y_i $;
- minimalizuj $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, co prowadzi do $$ \ hat y = \ mathrm {znak} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$
Oto ilustracja z tymi samymi punktami danych, dla każdego punktu obliczany jest „prostokąt” jako iloczyn długości dwóch czerwonych segmentów, a suma prostokątów wynosi zminimalizowane. Nie wiem zbyt wiele o właściwościach tej regresji i niewiele znajduję w Google.
Komentarze
- Kilka uwag: ( 1 ) O ile się nie mylę, wygląda na to, że ” regresja najmniejszych prostokątów ” jest równoważna rozwiązaniu uzyskanemu z pierwszego głównego składnika macierzy $ \ mathbf X = (\ mathbf y, \ mathbf x) $ po wyśrodkowaniu i przeskalowaniu do mają wariancję jednostek, a następnie zastępują je. (cd.)
- (cd.) ( 2 ) Patrząc w ten sposób, łatwo zauważyć, że ” najmniej prostokątów regresja ” jest odpowiednikiem formy ortogonalnych (lub ogółem) najmniejszych kwadratów , a zatem ( 3 ) Specjalny przypadek regresji Deminga na wyśrodkowanych, przeskalowanych wektorach przyjmujących $ \ delta = 1 $. Ortogonalne najmniejsze kwadraty można uznać za ” regresję najmniejszych kręgów „.
- @cardinal Bardzo interesujące komentarze! (+1) Uważam, że główna oś (minimalizacja prostopadłych odległości między reg.linia i wszystkie punkty, à la PCA) lub zmniejszona regresja osi głównej lub regresja typu II, jak na przykładzie pakiet lmodel2 R autorstwa P Legendre, są również tutaj istotne, ponieważ te techniki są używane, gdy ' są trudne powiedz, jaką rolę (odpowiedź lub predyktor) odgrywa każda zmienna lub kiedy chcemy uwzględnić błędy pomiaru.
- @chl: (+1) Tak, uważam, że masz rację, a strona Wikipedii na temat wszystkich najmniejszych kwadratów wymienia kilka innych nazw dla tej samej procedury, z których nie wszystkie są mi znane. Wydaje się, że wraca przynajmniej do R. Frischa, Statystyczna analiza konfluencji za pomocą kompletnych systemów regresji , Universitetets Ø konomiske Instituut, 1934, gdzie nazywa się to regresja diagonalna .
- @ cardinal Powinienem był być bardziej ostrożny czytając wpis w Wikipedii … przyszłe odniesienie, oto zdjęcie zrobione z Biostatystyczny projekt i analiza przy użyciu R , autorstwa M. Logana (Wiley, 2010; Ryc. 8.4, s. 174), który podsumowuje różne podejścia, podobnie jak ładne ilustracje Elvisa '.
Odpowiedź
Tylko krótka uwaga na temat tego, dlaczego widzisz mniejsze nachylenie dla jednej regresji. Oba nachylenia zależą od trzech liczb: odchylenia standardowego $ x $ i $ y $ ($ s_ {x} $ i $ s_ {y} $) oraz korelacji między $ x $ a $ y $ ($ r $). Regresja z $ y $ jako odpowiedzią ma nachylenie $ r \ frac {s_ {y}} {s_ {x}} $, a regresja z $ x $ jako odpowiedzią ma nachylenie $ r \ frac {s_ {x}} {s_ {y}} $, stąd stosunek pierwszego nachylenia do odwrotności drugiego jest równy $ r ^ 2 \ leq 1 $.
Zatem im większa jest wyjaśniona proporcja wariancji, tym bliżej nachylenia uzyskane z każdego przypadku. Zwróć uwagę, że proporcja wyjaśnionej wariancji jest symetryczna i równa kwadratowej korelacji w prostej regresji liniowej.
Odpowiedź
Linia regresji to nie (zawsze) to samo, co prawdziwa relacja
Możesz mieć pewną „prawdziwą” relację przyczynową, taką jak
$$ y = a + bx + \ epsilon $$
ale dopasowane linie regresji y ~ x
lub x ~ y
nie oznaczają tego samego ponieważ ten związek przyczynowy (nawet jeśli w praktyce wyrażenie dla jednej z linii regresji może pokrywać się z wyrażeniem dla związku przyczynowego „prawdziwego”)
Dokładniejszy związek między nachyleniami
Dla dwóch przełączanych prostych regresji liniowych:
$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$
możesz powiązać zbocza w następujący sposób:
$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$
Więc stoki są nie wzajemnie odwrotnie.
Intuicja
Powód jest taki, że
- Linie regresji i korelacje nie niekoniecznie muszą odpowiadać jeden do jednego związku przyczynowego.
- Linie regresji odnoszą się bardziej bezpośrednio do prawdopodobieństwa warunkowego lub najlepszej prognozy.
Możesz sobie wyobrazić, że prawdopodobieństwo warunkowe jest związane z siłą związku. Odzwierciedlają to linie regresji, a nachylenia linii mogą być zarówno płytkie, gdy siła relacji jest niewielka, jak i strome, gdy siła związku jest silna. Nachylenia nie są po prostu odwrotne.
Przykład
Jeśli dwie zmienne $ X $ i $ Y $ są ze sobą powiązane pewną (przyczynową) zależnością liniową $$ Y = \ text {trochę $ X + $ dużo błędu} $$ Wtedy możesz sobie wyobrazić, że nie byłoby całkowicie odwrócić tę zależność, gdybyś chciał wyrazić $ X $ na podstawie podanej wartości $ Y $ .
Zamiast
$$ X = \ text {dużo $ Y + $ trochę błędu} $$
lepiej byłoby też użyć
$$ X = \ text {trochę $ Y + $ dużo błędu} $$
Zobacz poniższe przykładowe dystrybucje z ich odpowiednie linie regresji.Dystrybucje są wielowymiarowe normalne z $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ i $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $
Warunkowe wartości oczekiwane (jakie można uzyskać w regresji liniowej) to
$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$
iw tym przypadku z $ X, Y $ wielowymiarowy rozkład normalny, a następnie dystrybucje krańcowe to
$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$
Więc możesz postrzegaj zmienną Y jako par t $ \ rho X $ i szum części z odchyleniem $ 1- \ rho ^ 2 $ . To samo jest prawdą w drugą stronę.
Im większy współczynnik korelacji $ \ rho $ , tym bliżej będą dwie linie. Ale im niższa korelacja, tym słabsza zależność, tym mniej strome będą linie (dotyczy to obu linii Y ~ X
i X ~ Y
)
Komentarze
- To wspaniałe wyjaśnienie. Prosty i intuicyjny
Odpowiedź
Prostym sposobem spojrzenia na to jest zauważenie, że jeśli to prawda model $ y = \ alpha + \ beta x + \ epsilon $ , uruchamiasz dwie regresje:
- $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
- $ x = a_ {x \ sim y} + b_ {x \ sim y} y $
Następnie mamy, używając $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :
$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$
Więc to, czy uzyskasz bardziej strome nachylenie, czy nie, zależy tylko od stosunku $ \ frac {var (y)} { var (x)} $ . Ten stosunek jest równy, w oparciu o przyjęty prawdziwy model:
$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$
Link z innymi odpowiedziami
Możesz połączyć ten wynik z odpowiedziami innych, którzy powiedzieli, że kiedy $ R ^ 2 = 1 $ , powinno być odwrotnością. Rzeczywiście, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , a także $ b_ {y \ sim x} = \ beta $ (brak błędu oszacowania), stąd:
$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$
Więc $ b_ {x \ sim y} = 1 / \ beta $
Odpowiedź
To staje się interesujące, gdy na twoich danych wejściowych jest również szum (co możemy argumentować, zawsze tak jest, żadne polecenie ani obserwacja nie są doskonałe).
stworzyli kilka symulacji, aby obserwować to zjawisko, w oparciu o prostą liniową zależność $ x = y $, z szumem Gaussa na x i y. Wygenerowałem obserwacje w następujący sposób (kod pythona):
x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)
Zobacz różne wyniki (odr tutaj jest ortogonalna regresja odległości, tj. to samo co regresja najmniejszych prostokątów):
Cały kod jest tam:
https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd
Odpowiedź
Krótka odpowiedź
Celem prostej regresji liniowej jest uzyskanie najlepszych prognoz y
zmienna, podane wartości zmiennej x
. To inny cel niż próba znalezienia najlepszej prognozy zmiennej x
przy danych wartościach zmiennej y
.
Prosta regresja liniowa y ~ x
daje „najlepszy” możliwy model do przewidywania y
biorąc pod uwagę x
. Stąd, jeśli dopasujesz model dla x ~ y
i odwrócisz go algebraicznie, ten model będzie w najlepszym przypadku działał tak dobrze, jak model dla y ~ x
. Ale odwrócenie modelu pasującego do x ~ y
zwykle daje gorsze wyniki w przewidywaniu y
biorąc pod uwagę x
, w porównaniu z „optymalnym” modelem y ~ x
, ponieważ „odwrócony x ~ y
model” został utworzony w celu spełnienia innego celu.
Ilustracja
Wyobraź sobie, że masz następujący zbiór danych:
Kiedy wykonujesz regresję OLS y ~ x
, otrzymujesz następujący model
y = 0.167 + 1.5*x
Optymalizuje to przewidywania y
poprzez wykonanie następujących prognoz, które mają powiązane błędy:
Prognozy regresji OLS są optymalne w tym sensie, że suma wartości w skrajnej prawej kolumnie (tj. suma kwadratów) jest tak mała, jak tylko może być.
Po uruchomieniu regresji OLS x ~ y
, wymyśl inny model:
x = -0.07 + 0.64*y
Optymalizuje to przewidywania x, wykonując następujące przewidywania z powiązanymi błędami.
Ponownie, jest to optymalne w tym sensie, że suma wartości skrajnej prawej kolumny jest możliwie najmniejsza (równa 0.071
).
Teraz wyobraź sobie, że próbujesz odwrócić pierwszy model, y = 0.167 + 1.5*x
, używając algebry, dając model x = -0.11 + 0.67*x
.
Dałoby to następujące prognozy i powiązane błędy:
Suma wartości w kolumnie po prawej stronie to 0.074
, czyli więcej niż odpowiednia suma z modelu, który otrzymujesz z regresji x na y, tj. model x ~ y
. Innymi słowy, „odwrócony y ~ x
model” radzi sobie gorzej z przewidywaniem x niż model OLS x ~ y
.