Nehmen wir an, es besteht eine „wahre“ Beziehung zwischen $ y $ und $ x $ wie z dass $ y = ax + b + \ epsilon $, wobei $ a $ und $ b $ Konstanten sind und $ \ epsilon $ normales Rauschen ist. Wenn ich zufällig Daten aus diesem R-Code generiere: x <- 1:100; y <- ax + b + rnorm(length(x)) und dann ein Modell wie y ~ x anpassen, erhalte ich offensichtlich einigermaßen gute Schätzungen für $ a $ und $ b $.

Wenn ich die Rolle wechsle Von den Variablen wie in (x ~ y) und wenn Sie dann das Ergebnis für $ y $ neu schreiben, um eine Funktion von $ x $ zu sein, ist die resultierende Steigung immer steiler (entweder negativer oder mehr) positiv) als das, was durch die Regression y ~ x geschätzt wird. Ich versuche genau zu verstehen, warum das so ist, und würde es begrüßen, wenn mir jemand eine Vorstellung davon geben könnte, was dort vor sich geht .

Kommentare

  • Das ‚ ist nicht im Allgemeinen wahr. Vielleicht sehen Sie ‚ das nur in Ihren Daten. Fügen Sie diesen Code ein: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); mehrmals in R und Sie ‚ werden feststellen, dass es in beide Richtungen geht.
  • Das ‚ ist ein bisschen anders als was Ich habe beschrieben. In Ihrem Beispiel war y ‚ überhaupt keine Funktion von x, daher gibt es ‚ eigentlich keine “ Steigung “ (die ‚ a ‚ in meinem Beispiel).
  • lm (y ~ x) passt durch kleinste Quadrate zum Modell $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ (entspricht der ML-Schätzung, wenn die Fehler normal sind). Es gibt eine Steigung.
  • Ihre Frage wird unter stats.stackexchange.com/questions/13126 und stats.stackexchange.com/questions/18434 . Ich glaube jedoch, dass noch niemand eine einfache, klare Erklärung der Beziehungen zwischen (a) Regression von $ Y $ gegen $ X $, (b) Regression von $ X $ gegen $ Y $, (c) Analyse der Korrelation beigetragen hat von $ X $ und $ Y $, (d) Fehler-in-Variablen-Regression von $ X $ und $ Y $ und (e) Anpassen einer bivariaten Normalverteilung an $ (X, Y) $. Dies wäre ein guter Ort für eine solche Darstellung :-).
  • Natürlich ist das Makro richtig: Da x und y in der Frage gleichwertige Rollen spielen, ist es eine Frage des Zufalls, welche Steigung extremer ist. Die Geometrie legt jedoch (fälschlicherweise) nahe, dass wir, wenn wir x und y in der Regression umkehren, den Rezipokal der ursprünglichen Steigung erhalten sollten. Das passiert nur, wenn x und y linear abhängig sind. Diese Frage kann so interpretiert werden, dass gefragt wird, warum.

Antwort

Gegeben $ n $ Datenpunkte $ (x_i, y_i), i = 1,2, \ ldots n $, in der Ebene zeichnen wir eine gerade Linie $ y = ax + b $. Wenn wir $ ax_i + b $ als den Wert $ \ hat {y} _i $ von $ y_i $ vorhersagen, ist der Fehler $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, der quadratische Fehler ist $ (y_i-ax_i-b) ^ 2 $ und der gesamte quadratische Fehler $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Wir fragen

Welche Auswahl von $ a $ und $ b $ minimiert $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i) -b) ^ 2 $?

Da $ (y_i-ax_i-b) $ der vertikale Abstand von $ (x_i, y_i) $ vom ist Gerade Linie, wir fragen nach der Linie, so dass die Summe der Quadrate der vertikalen Abstände der Punkte von der Linie so klein wie möglich ist. Jetzt ist $ S $ eine quadratische Funktion von $ a $ und $ b $ und erreicht ihren Mindestwert, wenn $ a $ und $ b $ so sind, dass $$ \ begin {align *} \ frac {\ partielles S} {\ partiell a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partielles S} {\ partielles b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Aus der zweiten Gleichung erhalten wir $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ wobei $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ sind die arithmetischen Durchschnittswerte der $ y_i $ „s und der $ x_i $“ s. Wenn wir die erste Gleichung einsetzen, erhalten wir $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Somit kann die Linie, die $ S $ minimiert, ausgedrückt werden als $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1}) ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ und der Mindestwert von $ S $ ist $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ rechts) – \ mu_y ^ 2 \ rechts] \ links [\ links (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ rechts) – \ mu_x ^ 2 \ rechts ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$

Wenn wir die Rollen von $ x $ und $ y $ vertauschen, zeichnen Sie eine Linie $ x = \ hat {a} y + \ hat {b} $ und fragen Sie nach den Werten von $ \ hat {a} $ und $ \ hat {b} $, die $$ T = \ sum_ {i = 1} ^ n minimieren (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ Das heißt, wir wollen die Linie so, dass die Summe der Quadrate der horizontalen Abstände der Punkte von der Linie so klein wie möglich ist, dann erhalten wir

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ und der Mindestwert von $ T $ ist $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ rechts] \ links [\ links (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ rechts) – \ mu_x ^ 2 \ rechts] – \ links [\ links (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Beachten Sie, dass beide Linien durch den Punkt $ (\ mu_x, \ mu_y) $ verlaufen, die Steigungen jedoch $$ a = \ frac {sind \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ rechts) – \ mu_x \ mu_y} {\ links (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ rechts) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ unterscheiden sich im Allgemeinen. Wie @whuber in einem Kommentar hervorhebt, sind die Steigungen tatsächlich gleich, wenn alle Punkte $ (x_i, y_i) $ auf derselben geraden Linie liegen. Beachten Sie dazu, dass $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Kommentare

  • Danke! abs (Korrelation) < 1 erklärt, warum die Steigung im umgekehrten Fall systematisch steiler war.
  • (+1), aber ich fügte eine Antwort mit nur einer Illustration hinzu von dem, was du gerade gesagt hast, da ich einen geometrischen Verstand habe 🙂
  • Klassenantwort (+1)

Antwort

Nur um Dilips Antwort zu veranschaulichen: Auf den folgenden Bildern sind

  • die schwarzen Punkte Datenpunkte;
  • links ist die schwarze Linie die Regressionslinie, die von y ~ x erhalten wird und die Quadrate der Länge der roten Segmente minimiert;
  • echts ist die schwarze Linie die Regressionslinie, die durch x ~ y erhalten wird und die Quadrate der Länge der roten Segmente minimiert.

Regressionslinien

Bearbeiten (Regression der kleinsten Rechtecke)

Wenn es keinen natürlichen Weg gibt, eine „Antwort“ und eine „Kovariate“ zu wählen, sondern die beiden Variablen voneinander abhängig sind, möchten Sie möglicherweise eine symmetrische Rolle für $ y $ und $ x $ beibehalten ;; In diesem Fall können Sie die Regression der kleinsten Rechtecke verwenden.

  • Schreiben Sie wie gewohnt $ Y = aX + b + \ epsilon $;
  • bezeichnen $ \ hat y_i = a x_i + b $ und $ \ hat x_i = {1 \ über a} (y_i – b) $ die Schätzungen von $ Y_i $ bedingt durch $ X = x_i $ und von $ X_i $ bedingt durch $ Y = y_i $;
  • minimiere $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, was zu $$ \ hat y = \ mathrm {sign} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} führt (x- \ overline x) + \ overline y. $$

Hier ist eine Abbildung mit denselben Datenpunkten. Für jeden Punkt wird ein „Rechteck“ als Produkt aus der Länge zweier roter Segmente und der Summe der Rechtecke berechnet minimiert. Ich weiß nicht viel über die Eigenschaften dieser Regression und finde bei Google nicht viel.

kleinste Rechtecke

Kommentare

  • Einige Anmerkungen: ( 1 ) Wenn ich mich nicht irre, scheint es, dass die “ Die Regression der kleinsten Rechtecke “ entspricht der Lösung, die sich aus der ersten Hauptkomponente in der Matrix $ \ mathbf X = (\ mathbf y, \ mathbf x) $ nach dem Zentrieren und erneuten Skalieren auf ergibt Einheitsvarianz haben und dann rücksubstituieren. (Forts.)
  • (Forts.) ( 2 ) So gesehen ist es leicht zu erkennen, dass dieses “ kleinste Rechteck Die Regression “ entspricht einer Form von orthogonalen (oder gesamten) kleinsten Quadraten und damit () 3 ) Ein Sonderfall von Deming-Regression für die zentrierten, neu skalierten Vektoren mit $ \ delta = 1 $. Orthogonale kleinste Quadrate können als “ Regression der kleinsten Kreise “ betrachtet werden.
  • @cardinal Sehr interessante Kommentare! (+1) Ich glaube, Hauptachse (Minimierung der senkrechten Abstände zwischen reg.Linie und alle Punkte, à la PCA) oder reduzierte Hauptachsenregression oder Typ II-Regression, wie in dargestellt Das lmodel2 R-Paket von P Legendre ist auch hier relevant, da diese Techniken verwendet werden, wenn es ‚ schwer ist Sagen Sie, welche Rolle (Antwort oder Prädiktor) jede Variable spielt oder wann wir Messfehler berücksichtigen möchten.
  • @chl: (+1) Ja, ich glaube, Sie haben Recht und die Wikipedia-Seite auf den kleinsten Quadraten listet mehrere andere Namen für das gleiche Verfahren auf, mit denen ich nicht alle vertraut bin. Es scheint mindestens auf R. Frisch zurückzugehen, Statistische Konfluenzanalyse mittels vollständiger Regressionssysteme , Universitetets Ø konomiske Instituut, 1934, wo es diagonale Regression genannt wurde.
  • @cardinal Ich hätte beim Lesen des Wikipedia-Eintrags vorsichtiger sein sollen … Für Zukünftige Referenz, hier ist ein Bild aus Biostatistisches Design und Analyse mit R von M. Logan (Wiley, 2010; Abb. 8.4, S. 174), der die verschiedenen Ansätze zusammenfasst, ähnlich wie die schönen Illustrationen von Elvis ‚.

Antwort

Nur eine kurze Anmerkung, warum Sie die Steigung für eine Regression kleiner sehen. Beide Steigungen hängen von drei Zahlen ab: Standardabweichungen von $ x $ und $ y $ ($ s_ {x} $ und $ s_ {y} $) und Korrelation zwischen $ x $ und $ y $ ($ r $). Die Regression mit $ y $ als Antwort hat die Steigung $ r \ frac {s_ {y}} {s_ {x}} $ und die Regression mit $ x $ als Antwort hat die Steigung $ r \ frac {s_ {x}} {s_ {y}} $, daher ist das Verhältnis der ersten Steigung zum Kehrwert der zweiten gleich $ r ^ 2 \ leq 1 $.

Je größer der erklärte Varianzanteil ist, desto näher ist der Wert Steigungen aus jedem Fall erhalten. Beachten Sie, dass der erklärte Varianzanteil symmetrisch ist und der quadratischen Korrelation bei einfacher linearer Regression entspricht.

Antwort

Regressionslinie ist nicht (immer) dasselbe wie wahre Beziehung

Möglicherweise haben Sie eine „wahre“ kausale Beziehung wie

$$ y = a + bx + \ epsilon $$

, aber angepasste Regressionslinien y ~ x oder x ~ y bedeuten nicht dasselbe als diese kausale Beziehung (selbst wenn in der Praxis der Ausdruck für eine der Regressionslinien mit dem Ausdruck für die kausale „wahre“ Beziehung übereinstimmen kann)


Genauere Beziehung zwischen Steigungen

Für zwei geschaltete einfache lineare Regressionen:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

Sie können die Steigungen wie folgt verknüpfen:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Die Pisten sind also nicht invers.


Intuition

Der Grund dafür ist, dass

  • Regressionslinien und Korrelationen dies tun nicht entsprechen notwendigerweise eins zu eins einem Kausalzusammenhang.
  • Regressionslinien beziehen sich direkter auf eine bedingte Wahrscheinlichkeit oder beste Vorhersage.

Sie können sich vorstellen, dass sich die bedingte Wahrscheinlichkeit auf die Stärke der Beziehung bezieht. Regressionslinien spiegeln dies wider und die Steigungen der Linien können sowohl flach sein, wenn die Stärke der Beziehung klein ist, als auch steil, wenn die Stärke der Beziehung stark ist. Die Steigungen sind nicht einfach umgekehrt.

Beispiel

Wenn zwei Variablen $ X $ und $ Y $ beziehen sich durch eine (kausale) lineare Beziehung $$ Y = \ text {ein bisschen $ X + $ viel of error} $$ Dann können Sie sich vorstellen, dass es nicht wäre, diese Beziehung vollständig umzukehren, wenn Sie $ X $ ausdrücken möchten basierend auf einem bestimmten Wert von $ Y $ .

Anstelle von

$$ X = \ text {viel $ Y + $ ein wenig Fehler} $$

Es wäre besser, auch

zu verwenden $$ X = \ text {ein bisschen $ Y + $ viel Fehler} $$

Siehe die folgenden Beispielverteilungen mit ihren jeweilige Regressionslinien.Die Verteilungen sind multivariate Normalen mit $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ und $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

Beispiel

Die bedingten erwarteten Werte (was Sie bei einer linearen Regression erhalten würden) sind

$$ \ begin {array} {} E. (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

und in diesem Fall mit $ X, Y $ eine multivariate Normalverteilung, dann sind die Randverteilungen

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

So können Sie sehen Sie die Variable Y als Par t $ \ rho X $ und ein Teilrauschen mit Varianz $ 1- \ rho ^ 2 $ . Das Gleiche gilt umgekehrt.

Je größer der Korrelationskoeffizient $ \ rho $ ist, desto näher sind die beiden Linien. Aber je niedriger die Korrelation, desto weniger stark die Beziehung, desto weniger steil sind die Linien (dies gilt für beide Linien Y ~ X und X ~ Y)

Kommentare

  • Das ist eine hervorragende Erklärung. Einfach und intuitiv

Antwort

Eine einfache Möglichkeit, dies zu betrachten, besteht darin, dies zu beachten, wenn dies der Fall ist Modell $ y = \ alpha + \ beta x + \ epsilon $ , Sie führen zwei Regressionen aus:

  • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
  • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Dann haben wir mit $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Ob Sie also eine steilere Steigung erzielen oder nicht, hängt nur vom Verhältnis $ \ frac {var (y)} {ab var (x)} $ . Dieses Verhältnis ist gleich, basierend auf dem angenommenen wahren Modell:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Mit anderen Antworten verknüpfen

Sie können dieses Ergebnis verbinden mit den Antworten von anderen, die sagten, wenn $ R ^ 2 = 1 $ , sollte es das Gegenteil sein. In der Tat ist $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ und auch $ b_ {y \ sim x} = \ beta $ (kein Schätzfehler), daher:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

Also $ b_ {x \ sim y} = 1 / \ beta $

Antwort

Es wird interessant, wenn auch Ihre Eingaben Rauschen aufweisen (was wir immer behaupten könnten, kein Befehl oder keine Beobachtung ist jemals perfekt).

I. haben einige Simulationen erstellt, um das Phänomen zu beobachten, basierend auf einer einfachen linearen Beziehung $ x = y $, mit Gaußschem Rauschen sowohl auf x als auch auf y. Ich habe die Beobachtungen wie folgt generiert (Python-Code):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

Siehe die verschiedenen Ergebnisse (odr hier ist orthogonale Distanzregression, dh das Gleiche wie Regression der kleinsten Rechtecke):

Geben Sie hier die Bildbeschreibung ein

Der gesamte Code befindet sich dort:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Antwort

Die kurze Antwort

Das Ziel einer einfachen linearen Regression ist es, die besten Vorhersagen für die zu treffen y Variable, gegebene Werte der x -Variable. Dies ist ein anderes Ziel als der Versuch, die beste Vorhersage für die Variable x bei gegebenen Werten der Variablen y zu finden.

Die einfache lineare Regression von y ~ x bietet Ihnen das „bestmögliche“ Modell für die Vorhersage von y bei x. Wenn Sie also ein Modell für x ~ y anpassen und es algebraisch invertieren, kann dieses Modell im besten Fall nur so gut wie das Modell für y ~ x. Das Invertieren eines Modells, das für x ~ y geeignet ist, ist jedoch normalerweise schlechter bei der Vorhersage von y, wenn x, im Vergleich zum „optimalen“ y ~ x Modell, da das „invertierte x ~ y Modell“ erstellt wurde, um ein anderes Ziel zu erreichen.

Abbildung

Stellen Sie sich vor, Sie haben den folgenden Datensatz:

geben Sie ein Bildbeschreibung hier

Wenn Sie eine OLS-Regression von y ~ x ausführen, erhalten Sie das folgende Modell

y = 0.167 + 1.5*x 

Dies optimiert die Vorhersagen von y, indem die folgenden Vorhersagen getroffen werden, denen Fehler zugeordnet sind:

Geben Sie hier die Bildbeschreibung ein.

Die Vorhersagen der OLS-Regression sind in dem Sinne optimal, dass die Die Summe der Werte in der Spalte ganz rechts (dh die Summe der Quadrate) ist so klein wie möglich.

Wenn Sie eine OLS-Regression von x ~ y ausführen, sind Sie Überlegen Sie sich ein anderes Modell:

x = -0.07 + 0.64*y 

Dies optimiert die Vorhersagen von x, indem die folgenden Vorhersagen mit zugehörigen Fehlern getroffen werden.

Bildbeschreibung eingeben ion here

Auch dies ist insofern optimal, als die Summe der Werte der Spalte ganz rechts so klein wie möglich ist (gleich ).

Stellen Sie sich nun vor, Sie haben versucht, das erste Modell, y = 0.167 + 1.5*x, mithilfe der Algebra zu invertieren und das Modell x = -0.11 + 0.67*x.

Dies würde Ihnen die folgenden Vorhersagen und damit verbundenen Fehler geben:

Geben Sie hier die Bildbeschreibung ein.

Die Summe der Werte in der Spalte ganz rechts ist 0.074 und ist größer als Die entsprechende Summe aus dem Modell, die Sie durch die Regression von x auf y erhalten, dh das Modell x ~ y. Mit anderen Worten, das „invertierte y ~ x -Modell“ kann x schlechter vorhersagen als das OLS-Modell von x ~ y.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.