$ y $と$ x $の間に何らかの「真の」関係が存在するとしましょう。その$ y = ax + b + \ epsilon $、ここで$ a $と$ b $は定数で、$ \ epsilon $はiidの通常のノイズです。そのRコードからランダムにデータを生成する場合:x <- 1:100; y <- ax + b + rnorm(length(x))次に、y ~ xのようなモデルを当てはめると、明らかに$ a $と$ b $のかなり良い見積もりが得られます。

役割を切り替えるとただし、(x ~ y)のように変数を計算し、$ y $の結果を$ x $の関数に書き換えると、結果の勾配は常に急になります(負またはそれ以上)。ポジティブ)y ~ x回帰によって推定されたものよりも。私はそれがなぜであるかを正確に理解しようとしています。そこで何が起こっているのかについて誰かが私に直感を教えてくれれば幸いです。 。

コメント

  • それは’ではありません一般的に当てはまります。おそらく、’データにそれが表示されているだけです。このコードを貼り付けます:y = rnorm(10); x = rnorm(10); lm(y〜x); lm(x〜y); Rに数回入力すると、’双方向に動作することがわかります。
  • その’は何とは少し異なります。私が説明していました。あなたの例では、yはxの’ ta関数ではなかったので、’は実際には” slot “(私の例では’ a ‘)
  • lm(y〜x)は、モデル$ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $に最小二乗法で適合します(エラーがiid通常の場合のML推定に相当します)。傾斜があります。
  • あなたの質問は、 stats.stackexchange.com/questions/13126 およびで質問および回答されます(一種)。 div id = “5185308027”>

stats.stackexchange.com/questions/18434 。ただし、(a)$ Y $と$ X $の回帰、(b)$ X $と$ Y $の回帰、(c)相関の分析の間の関係について、まだ誰も簡単で明確な説明を提供していないと思います。 $ X $と$ Y $の、(d)$ X $と$ Y $の変数内エラー回帰、および(e)2変量正規分布の$(X、Y)$への適合。これは、そのような説明に適した場所です:-)

  • もちろん、マクロは正しいです。質問ではxとyが同等の役割を果たすため、どちらの勾配がより極端かは偶然の問題です。ただし、ジオメトリは、回帰でxとyを逆にすると、元の勾配の recipocal を取得する必要があることを(誤って)示唆しています。 xとyが線形従属である場合を除いて、これは決して起こりません。この質問は、理由を尋ねていると解釈できます。
  • 回答

    $ n $のデータポイント$(x_i、 y_i)、i = 1,2、\ ldots n $、平面で、直線$ y = ax + b $を描きましょう。 $ ax_i + b $を$ y_i $の値$ \ hat {y} _i $として予測すると、エラーは$(y_i- \ hat {y} _i)=(y_i- ax_i-b)$、二乗誤差は$(y_i-ax_i-b)^ 2 $、合計二乗誤差 $ \ sum_ {i = 1} ^ n(y_i-ax_i-b)^ 2 $。質問します

    $ a $と$ b $を選択すると、$ S = \ displaystyle \ sum_ {i = 1} ^ n(y_i-ax_i -b)^ 2 $?

    $(y_i-ax_i-b)$は$(x_i、y_i)$からの垂直距離であるため直線の場合、線からの点の垂直距離の二乗の合計ができるだけ小さくなるような線を求めています。これで、$ S $は$ a $と$ b $の両方の二次関数になり、$ a $と$ b $が$$ \ begin {align *} \ frac {\ partial S} {\のようになると、最小値になります。部分a} & = 2 \ sum_ {i = 1} ^ n(y_i-ax_i-b)(-x_i)& = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n(y_i-ax_i-b)(-1)& = 0 \ end {align *} $$ 2番目の式から、$$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n( y_i –ax_i)= \ mu_y –a \ mu_x $$ここで、$ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i、〜\ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $は、それぞれ$ y_i $ “と$ x_i $”の算術平均値です。最初の方程式に代入すると、$$ a = \ frac {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}。 $$したがって、$ S $を最小化する線は、$$ y = ax + b = \ mu_y + \ left(\ frac {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2} \ right)(x -\ mu_x)、$$、$ S $の最小値は$$ S _ {\ min} = \ frac {\ left [\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2 \ right] \ left [\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2 \ right ]-\ left [\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y \ right] ^ 2} {\ left(\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}。$$

    $ x $と$ y $の役割を入れ替える場合は、$ x = \ hat {a} y + \ hat {b} $の線を引き、$の値を要求します。 $$ T = \ sum_ {i = 1} ^ n(x_i- \ hat {a} y_i- \ hat {b})^ 2、$$を最小化する\ hat {a} $と$ \ hat {b} $つまり、線からの点の水平距離の二乗の合計ができるだけ小さくなるような線が必要です。そうすると、

    $$ xが得られます。 = \ hat {a} y + \ hat {b} = \ mu_x + \ left(\ frac {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2} \ right)(y- \ mu_y)$$と最小値$ T $の$$ T _ {\ min} = \ frac {\ left [\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2 \ right] \ left [\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2 \ right]-\ left [\ left(\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y \ right] ^ 2} {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2}。$$

    両方の線が点$(\ mu_x、\ mu_y)$を通過しますが、勾配は$$ a = \ frac {であることに注意してください。 \ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right)-\ mu_x \ mu_y} {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}、~~ \ hat {a } ^ {-1} = \ frac {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2} {\ left(\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} $$は一般的に異なります。実際、@ whuberがコメントで指摘しているように、すべての点$(x_i、y_i)$が同じ直線上にある場合、傾きは同じです。これを確認するには、$$ \ hat {a} ^ {-1} –a = \ frac {S _ {\ min}} {\ left(\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b、i = 1,2、\ ldots、n。 $$

    コメント

    • ありがとう! abs(correlation)< 1は、逆の場合に勾配が体系的に急になった理由を説明しています。
    • (+ 1)しかし、私はイラストだけで答えを追加しました私は幾何学的な心を持っているので、あなたが今言ったことの:)
    • クラスの返信(+1)

    回答

    Dilipの答えを説明するためだけに:次の写真では、

    • 黒い点はデータポイントです。
    • 左側の黒い線は、y ~ xによって取得された回帰直線であり、赤いセグメントの長さの2乗を最小化します。
    • 右側の黒い線は、x ~ yによって取得された回帰直線であり、赤いセグメントの長さの2乗を最小化します。

    回帰直線

    編集(最小の長方形の回帰)

    「応答」と「共変量」を選択する自然な方法がなく、2つの変数が相互依存している場合は、$ y $と$ x $の対称的な役割を維持することをお勧めします。 ;この場合、「最小長方形回帰」を使用できます。

    • 通常どおり、$ Y = aX + b + \ epsilon $と記述します。
    • $ \ hat y_i =を示します。 a x_i + b $および$ \ hat x_i = {1 \ over a}(y_i –b)$ $ X = x_i $を条件とする$ Y_i $および$ Y = y_i $を条件とする$ X_i $の推定;
    • $ \ sum_iを最小化する| x_i- \ hat x_i | \ cdot | y_i- \ hat y_i | $、$$ \ hat y = \ mathrm {sign} \ left(\ mathrm {cov}(x、y)\ right){\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x)+ \ overliney。 $$

    これは同じデータポイントの図です。各ポイントについて、2つの赤いセグメントの長さの積として「長方形」が計算され、長方形の合計は次のようになります。最小化。この回帰のプロパティについてはよくわかりません。また、googleではあまり見つかりません。

    最小の長方形

    コメント

    • いくつかのメモ:( 1 )私が間違っていない限り、”最小長方形回帰”は、中心化して再スケーリングした後、行列$ \ mathbf X =(\ mathbf y、\ mathbf x)$の最初の主成分を取ることから得られる解と同等です。単位分散があり、次に逆代入します。 (続き)
    • (続き)( 2 )このように見ると、この”最小二乗法が簡単にわかります。回帰”は、直交(または合計)最小二乗の形式と同等であり、したがって( 3 )$ \ delta = 1 $をとる、中央に再スケーリングされたベクトルでのデミング回帰の特殊なケース。直交最小二乗は、”最小二乗回帰”と見なすことができます。
    • @cardinal非常に興味深いコメントです! (+1)私は主軸を信じています(reg間の垂直距離を最小化します。線とすべての点、à la PCA)または減少した主軸回帰、またはに例示されているタイプII回帰PLegendreによる lmodel2 Rパッケージもここで関連します。これは、これらの手法が’が難しい場合に使用されるためです。各変数がどのような役割(応答または予測子)を果たしているか、または測定誤差をいつ考慮したいかを教えてください。
    • @chl:(+ 1)はい、あなたは正しいと思います。Wikipediaのページは最小二乗法です。同じ手順の他のいくつかの名前をリストしますが、すべてが私が精通しているわけではありません。少なくともR.Frisch、 完全回帰システムによる統計的合流分析 、Universitetets Ø konomiske Instituut、1934年、対角回帰と呼ばれていました。
    • @cardinalウィキペディアのエントリを読むときはもっと注意する必要がありました…今後の参考資料として、 Rを使用した生物統計学的設計と分析から取得した写真を示します。 、M。Logan(Wiley、2010;図8.4、p。174)によるもので、Elvis ‘の素敵なイラストのようにさまざまなアプローチを要約しています。 li>

    回答

    1回の回帰で勾配が小さくなる理由について簡単に説明します。両方の勾配は、$ x $と$ y $の標準偏差($ s_ {x} $と$ s_ {y} $)、および$ x $と$ y $の間の相関($ r $)の3つの数値に依存します。 $ y $を応答として使用した回帰の傾きは$ r \ frac {s_ {y}} {s_ {x}} $であり、$ x $を応答として使用した回帰の傾きは$ r \ frac {s_ {x}} {s_ {y}} $、したがって、最初の勾配と2番目の勾配の比率は$ r ^ 2 \ leq 1 $に等しくなります。

    したがって、説明される分散の比率が大きいほど、より近くなります。それぞれの場合から得られた勾配。説明された分散の割合は対称であり、単純な線形回帰の二乗相関に等しいことに注意してください。

    回答

    回帰直線は(常に)真の関係と同じではありません

    次のような「真の」因果関係がある可能性があります

    $$ y = a + bx + \ epsilon $$

    ただし、近似回帰直線y ~ xまたはx ~ yは同じ意味ではありませんその因果関係として(実際には、回帰直線の1つの式が因果的な「真の」関係の式と一致する場合でも)


    勾配間のより正確な関係

    2つの切り替えられた単純線形回帰の場合:

    $$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

    次のように勾配を関連付けることができます。

    $$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

    つまり、勾配は互いに逆ではありません


    直感

    理由は

    • 回帰直線と相関が 必ずしも因果関係に1対1で対応しているわけではありません。
    • 回帰直線は、条件付き確率または最良の予測に直接関連しています。

    条件付き確率は関係の強さに関係していると想像できます。回帰直線はこれを反映しており、関係の強さが小さい場合は線の傾きが浅くなり、関係の強さが強い場合は両方の傾きが急になることがあります。傾きは単純に互いに逆ではありません。

    2つの変数 $ X $ と $ Y $ は、いくつかの(因果的な)線形関係によって相互に関連しています $$ Y = \ text {少しの$ X + $たくさんof error} $$ 次に、 $$ X $を表現したい場合に、その関係を完全に逆にするのは 良くないだろうと想像できます。 $ Y $ の指定された値に基づきます。

    $$ X = \ text {たくさんの$ Y + $少しのエラー} $$

    も使用したほうがいいです

    $$ X = \ text {少しの$ Y + $多くのエラー} $$

    次の分布例とそのそれぞれの回帰直線。分布は、 $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ および $ \ Sigma_ {12の多変量正規分布です。 } = \ Sigma_ {21} = \ rho $

    例

    条件付き期待値(線形回帰で得られるもの)は次のとおりです

    $$ \ begin {array} {} E (Y | X)& = & \ rho X \\ E(X | Y)& = & \ rho Y \ end {array} $$

    この場合は $ X、Y $ 多変量正規分布の場合、周辺分布は

    $$ \ begin {array} {} Y & \ sim & N(\ rho X、1- \ rho ^ 2)\\ X & \ sim & N(\ rho Y、1- \ rho ^ 2)\ end {array} $$

    変数Yをパーとして参照してくださいt $ \ rho X $ と分散のあるパーツノイズ $ 1- \ rho ^ 2 $ 。逆の場合も同様です。

    相関係数 $ \ rho $ が大きいほど、2本の線が近くなります。ただし、相関が低いほど、関係は弱くなり、線は急勾配になりません(これは、両方のY ~ XX ~ Y

    コメント

    • これはすばらしい説明です。シンプルで直感的

    回答

    これを確認する簡単な方法は、本当の場合は注意することです。モデル $ y = \ alpha + \ beta x + \ epsilon $ 、2つの回帰を実行します:

    • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
    • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

    次に、 $ b_ {y \ simxを使用します。 } = \ frac {cov(x、y)} {var(x)} = \ frac {cov(x、y)} {var(y)} \ frac {var(y)} {var(x)} $

    $$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var(y)} {var( x)} $$

    したがって、傾斜が急になるかどうかは、比率 $ \ frac {var(y)} { var(x)} $ 。この比率は、想定される真のモデルに基づいて、次のようになります。

    $$ \ frac {var(y)} {var(x)} = \ frac { \ beta ^ 2 var(x)+ var(\ epsilon)} {var(x)} $$

    他の回答とリンク

    この結果を関連付けることができます $ R ^ 2 = 1 $ の場合、それは逆数である必要があると述べた他の人からの回答があります。実際、 $ R ^ 2 = 1 \ Rightarrow var(\ epsilon)= 0 $ であり、 $ b_ {y \ sim x} = \ beta $ (推定エラーなし)、したがって:

    $$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var(x)+ 0} {var(x)} = b_ {x \ sim y} \ beta ^ 2 $$

    つまり、 $ b_ {x \ sim y} = 1 / \ beta $

    回答

    入力にノイズもあると興味深いものになります(これは常に当てはまり、コマンドや観察が完璧になることはありません)。

    Iは、xとyの両方にガウスノイズがある単純な線形関係$ x = y $に基づいて、現象を観察するためのいくつかのシミュレーションを構築しました。観測値を次のように生成しました(pythonコード):

    x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

    さまざまな結果を確認します(ここでのodrは直交距離回帰です。つまり、最小直交回帰と同じ):

    ここに画像の説明を入力

    すべてのコードがそこにあります:

    https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

    回答

    簡単な回答

    単純な線形回帰の目標は、の最良の予測を考え出すことです。 x変数の値が指定された場合、y変数。これは、y変数の値を前提として、x変数の最良の予測を考え出すこととは異なる目標です。

    y ~ xの単純な線形回帰により、x

    を予測するための「最良の」モデルが得られます。 “> 。したがって、x ~ yのモデルを適合させて代数的に反転させた場合、そのモデルはy ~ x。ただし、x ~ yに適合するモデルを反転すると、通常、xが与えられた場合のyの予測が悪くなります。 「最適な」y ~ xモデルと比較すると、「逆x ~ yモデル」は別の目的を達成するために作成されたためです。

    次のデータセットがあるとします。

    ここに画像の説明

    y ~ xのOLS回帰を実行すると、次のモデルが思い浮かびます

    y = 0.167 + 1.5*x 

    これは、関連するエラーがある次の予測を行うことにより、yの予測を最適化します。

    ここに画像の説明を入力

    OLS回帰の予測は、右端の列の値の合計(つまり、二乗の合計)は可能な限り小さくなります。

    x ~ yのOLS回帰を実行すると、次のようになります。別のモデルを考え出す:

    x = -0.07 + 0.64*y 

    これは、関連するエラーとともに次の予測を行うことにより、xの予測を最適化します。

    画像の説明を入力ここでイオン

    繰り返しますが、これは、右端の列の値の合計が可能な限り小さいという意味で最適です()。

    ここで、代数を使用して最初のモデルy = 0.167 + 1.5*xを反転し、モデルx = -0.11 + 0.67*x

    これにより、次の予測と関連するエラーが発生します。

    ここに画像の説明を入力してください

    右端の列の値の合計は0.074であり、 yでxを回帰することで得られるモデル、つまりx ~ yモデルからの対応する合計。言い換えると、「反転されたy ~ xモデル」は、x ~ yのOLSモデルよりもxの予測で悪い仕事をしています。

    コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です