次の用語の線形回帰のコンテキストに関する意味の違いについて、私は本当に混乱しています。

  • F統計
  • 決定係数
  • 残差標準誤差

このウェブスタイルを見つけましたこれにより、線形回帰に関連するさまざまな用語について優れた洞察が得られましたが、上記の用語は(私が理解している限り)非常によく似ています。私が読んだものと混乱したものを引用します:

残差標準誤差は、線形回帰近似の品質の尺度です…….残差標準誤差は、応答の平均量です(距離)は真の回帰直線から外れます。

1. したがって、これは実際にはlmラインからの観測値の平均距離ですか?

R二乗統計は私を提供しますモデルが実際のデータにどの程度適合しているかを確認します。

2. RSEが観測点が回帰直線からどれだけ離れているかを示している場合、低いRSEは実際には「モデルは観測されたデータ点に基づいて適切に適合している」と示しているため、混乱しています。 >したがって、モデルがどの程度適合しているか、R2乗とRSEの違いは何ですか?

F統計量は、予測変数と応答変数の間に関係があるかどうかの優れた指標です。

3. 次のことを示すF値を持つことができるというのは本当ですかRSEが高く、決定係数が低いような非線形の強い関係

コメント

  • Q 3F値は非線形関係を示していません。これは、2つの変数(従属変数と独立変数)の間に実質的な(一定の)関係があるかどうかを示す比率です。
  • 関係の性質(非線形または線形)はわかりません。

回答

これらの用語を理解する最良の方法は、手動で回帰計算を行うことです。密接に関連する2つの回答(ここここ)を書きましたが、完全には役に立たない場合がありますあなたはあなたの特定のケースを理解しています。しかし、それでもそれらを読んでください。おそらく、これらの用語をより適切に概念化するのにも役立つでしょう。

回帰(またはANOVA)では、サンプルデータセットに基づいてモデルを構築し、関心のある母集団からの結果を予測できるようにします。そのために、次の3つのコンポーネントが単純な線形回帰で計算され、そこから他のコンポーネントを計算できます。平均二乗、F値、 $ R ^ 2 $ (調整された $ R ^ 2 $ )、および残差標準誤差( $ RSE $ ):

  1. 総平方和( $ SS_ {total} $
  2. 残差平方和( $ SS_ {residual} $
  3. モデルの二乗和( $ SS_ {model} $

それぞれが、モデルはデータを記述し、データポイントから適合モデルまでの距離の二乗和です(下のプロットに赤い線で示されています)。

$ SS_ {total} $ は、平均がデータにどの程度適合しているかを評価します。なぜ意味があるのですか?平均は適合できる最も単純なモデルであるため、最小二乗回帰直線が比較されるモデルとして機能します。 carsデータセットを使用したこのプロットは、次のことを示しています。

画像の説明を入力ここ

$ SS_ {residual} $ は、回帰直線がデータにどの程度適合しているかを評価します。

ここに画像の説明を入力

$ SS_ {model} $ は、回帰直線が平均と比較してどれだけ優れているかを比較します(つまり、 $ SS_ {total} $ および $ SS_ {residual} $ )。

ここに画像の説明を入力してください

質問に答えるには、まず、モデルから始めて理解したい用語を計算し、参照として出力します。

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

二乗の合計は、の二乗距離です。個々のデータはモデルを指します:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

平均二乗は、自由度で平均された二乗の合計です:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

質問に対する私の回答:

Q1:

  1. したがって、これは実際にはlm線からの観測値の平均距離?

残差標準誤差 $ RSE $ )は、残差平均二乗 $ MS_ {r)の平方根です。 esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

$ SS_ {residual} $ <を覚えている場合/ span>は、観測されたデータポイントとモデル(上記の2番目のプロットの回帰線)の距離の2乗であり、 $ MS_ {residual} $ は単なる平均 $ SS_ {residual} $ 、最初の答え質問は「はい」です。 $ RSE $ は、モデルからの観測データの平均距離を表します。直感的には、これも完全に理にかなっています。距離が小さいほど、モデルの適合性も向上するからです。

Q2:

  1. RSEが観測点からどれだけ離れているかを教えてくれると、混乱します。低RSEの回帰直線は、実際には「観測されたデータポイントに基づいてモデルが適切に適合している」ことを示しています->したがって、モデルがどの程度適合しているか、決定係数とRSEの違いは何ですか?

これで、 $ R ^ 2 $ $ SS_ {model} $ と $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

$ R ^ 2 $ は、データの合計変動のどれだけをモデルで説明できるかを表します(回帰行)。全体の変動はデータの変動であったことを忘れないでください。最も単純なモデルをデータ、つまり平均に適合させたとき。 $ SS_ {total} $ プロットを $ SS_ {model} $ プロットと比較します。

2番目の質問に答えるために、 $ RSE $ $ R ^ 2 $ <の違い/ span>は、 $ RSE $ が、観測されたデータを前提としたモデル(この場合は回帰直線)の不正確さについて何かを教えてくれることです。

一方、 $ R ^ 2 $ は、モデル(つまり回帰直線)によって説明される変動の量を、モデルによって説明される変動と比較して示します。単独を意味します(つまり、最も単純なモデル)。

Q3:

  1. RSEが高く、決定係数が低くなるように、非線形である強い関係を示すF値を持つことができるのは本当ですか

So t $ F $ -もう一方の値は、モデルの平均二乗 $ MS_ {model} $ として計算されます。 (または信号)を $ MS_ {residual} $ (ノイズ)で割った値:

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

つまり、 $ F $ 値は、モデルの不正確さを考慮して、モデルが(平均と比較して)どれだけ改善されたかを表します。

3番目の質問は少しわかりにくいですが、提供された見積もりに同意します。

回答

(2 )あなたはそれを正しく理解しています、あなたはただ概念に苦労しています。

$ R ^ 2 $値は、モデルがすべてのデータをどの程度適切に説明しているかを表します。 0から1までの値のみを取ることができます。これは、モデルが説明できるデータセット内のポイントの偏差のパーセンテージです。

RSEは、からの偏差の記述子です。元のデータが表すモデル。したがって、$ R ^ 2 $は、「モデルは、提示されたデータを説明するのにこれをうまく実行します」と言います。 RSEは、「マッピングされたとき、データはここにあると予想していましたが、実際にはここにありました」と述べています。それらは非常に似ていますが、さまざまな方法で検証するために使用されます。

回答

クリスが上記で回答した内容を補足するだけです:

F統計は次の除算です。モデルの平均二乗と残余の平均二乗。 Stataのようなソフトウェアは、回帰モデルをフィッティングした後、F統計量に関連付けられたp値も提供します。これにより、モデルの係数がゼロであるという帰無仮説を検定できます。これは、「モデル全体の統計的有意性」と考えることができます。

回答

この別の回答で指摘したように、 $ F $ $ RSS $ $ R ^ 2 $ はすべて相互に関連しています。関連する抜粋:

2つのモデル間のF統計、ヌルモデル(切片のみ) $ m_0 $ および代替モデル $ m_1 $ ( $ m_0 $ $ m_1 $ )は次のとおりです。

$$ F = \ frac {\ left(\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left(\ frac {RSS_1} {n-p_1} \ right)} = \ left(\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)\ left(\ frac {n-p_1} {RSS_1} \ right)$$

$ R ^ 2 $ は、次のように定義されます。

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

$ F $ 次のことがわかります:

$$ F = \ left(\ frac {RSS_0-RSS_1} {RSS_1} \ right)\ left(\ frac {n -p_1} {p_1-p_0} \ right)= \ left(\ frac {RSS_0} {RSS_1} -1 \ right)\ left(\ frac {n-p_1} {p_1-p_0} \ right)= \ left( \ frac {R ^ 2} {1-R ^ 2} \ right)\ left(\ frac {n-p_1} {p_1-p_0} \ right)$$

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です