Ich bin wirklich verwirrt über den Bedeutungsunterschied im Zusammenhang mit der linearen Regression der folgenden Begriffe:

  • F. Statistik
  • R im Quadrat
  • Restlicher Standardfehler

Ich habe diesen Webstie was mir einen guten Einblick in die verschiedenen Begriffe der linearen Regression gab, aber die oben genannten Begriffe sehen ziemlich weit aus (soweit ich das verstehe). Ich werde zitieren, was ich gelesen habe und was mich verwirrt hat:

Reststandardfehler ist ein Maß für die Qualität einer linearen Regressionsanpassung ……. Der Reststandardfehler ist der durchschnittliche Betrag, um den die Antwort (dist ) weicht von der wahren Regressionslinie ab.

1. Dies ist also tatsächlich der durchschnittliche Abstand der beobachteten Werte von der lm-Linie?

Die R-Quadrat-Statistik liefert ein me Überprüfen Sie, wie gut das Modell den tatsächlichen Daten entspricht.

2. Jetzt bin ich verwirrt, denn wenn RSE uns sagt, wie weit unsere beobachteten Punkte von der Regressionslinie abweichen, sagt uns ein niedriger RSE tatsächlich, dass“ Ihr Modell basierend auf den beobachteten Datenpunkten gut passt „- > Wie gut passen unsere Modelle? Was ist der Unterschied zwischen R im Quadrat und RSE?

Die F-Statistik ist ein guter Indikator dafür, ob eine Beziehung zwischen unserem Prädiktor und den Antwortvariablen besteht.

3. Stimmt es, dass wir einen F-Wert haben können, der a angibt? Starke Beziehung, die NICHT LINEAR ist, so dass unser RSE hoch und unser R-Quadrat niedrig ist.

Kommentare

  • Q 3 F-Wert zeigt keine nichtlineare Beziehung an . Es ist ein Verhältnis, das angibt, ob es eine inhaltliche (konstante) Beziehung zwischen den beiden Variablen gibt – abhängig und unabhängig.
  • Es sagt nichts über die Art der Beziehung aus – nichtlinear oder linear.

Antwort

Der beste Weg, diese Begriffe zu verstehen, besteht darin, eine Regressionsberechnung von Hand durchzuführen. Ich habe zwei eng verwandte Antworten geschrieben ( hier und hier ), die jedoch möglicherweise nicht vollständig helfen Sie verstehen Ihren speziellen Fall. Aber lesen Sie sie trotzdem durch. Vielleicht helfen sie Ihnen auch dabei, diese Begriffe besser zu konzipieren.

In einer Regression (oder ANOVA) erstellen wir ein Modell, das auf einem Beispieldatensatz basiert und es uns ermöglicht, Ergebnisse aus einer interessierenden Population vorherzusagen. Zu diesem Zweck werden die folgenden drei Komponenten in einer einfachen linearen Regression berechnet, aus der die anderen Komponenten berechnet werden können, z. die mittleren Quadrate, der F-Wert, der $ R ^ 2 $ (auch der angepasste $ R ^ 2 $ ) und der verbleibende Standardfehler ( $ RSE $ ):

  1. Gesamtsummen der Quadrate ( $ SS_ {total} $ )
  2. Restquadratsummen ( $ SS_ {Residuum} $ )
  3. Modellsummen von Quadraten ( $ SS_ {model} $ )

Jeder von ihnen bewertet, wie gut die Quadrate sind Das Modell beschreibt die Daten und ist die Summe der quadratischen Abstände von den Datenpunkten zum angepassten Modell (im Diagramm unten als rote Linien dargestellt).

Der $ SS_ {total} $ beurteilen, wie gut der Mittelwert zu den Daten passt. Warum der Mittelwert? Da der Mittelwert das einfachste Modell ist, das wir anpassen können, dient er als Modell, mit dem die Regressionsgerade der kleinsten Quadrate verglichen wird. Dieses Diagramm unter Verwendung des Datensatzes cars veranschaulicht Folgendes:

Bildbeschreibung eingeben hier

Der $ SS_ {Residuum} $ bewertet, wie gut die Regressionslinie zu den Daten passt.

Geben Sie hier die Bildbeschreibung ein.

Die $ SS_ {model} $ vergleicht, wie viel besser die Regressionslinie mit dem Mittelwert verglichen wird (dh die Differenz zwischen dem $ SS_ {total} $ und der $ SS_ {Residuum} $ ).

Geben Sie hier die Bildbeschreibung ein.

Um Ihre Fragen zu beantworten Berechnen wir zunächst die Begriffe, die Sie verstehen möchten, beginnend mit Modell und Ausgabe als Referenz:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

Die Quadratsummen sind die quadratischen Abstände von Die einzelnen Daten zeigen auf das Modell:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

Die mittleren Quadrate sind die durch die Freiheitsgrade gemittelten Quadratsummen:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Meine Antworten auf Ihre Fragen:

Q1:

  1. Dies ist also tatsächlich der durchschnittliche Abstand der beobachteten Werte von der lm-Linie?

Der verbleibende Standardfehler ( $ RSE $ ) ist die Quadratwurzel des verbleibenden mittleren Quadrats ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Wenn Sie sich daran erinnern, dass der $ SS_ {Residuum} $ waren die quadratischen Abstände der beobachteten Datenpunkte und des Modells (Regressionslinie im zweiten Diagramm oben), und $ MS_ {Residuum} $ war nur das gemittelt $ SS_ {Residuum} $ , die Antwort auf Ihre erste Die Frage ist ja: Der $ RSE $ repräsentiert den durchschnittlichen Abstand der beobachteten Daten vom Modell. Intuitiv ist dies auch sehr sinnvoll, da bei geringerem Abstand auch die Modellanpassung besser ist.

Q2:

  1. Jetzt bin ich verwirrt, denn wenn RSE uns sagt, wie weit unsere beobachteten Punkte von den abweichen Regressionsgerade Eine niedrige RSE sagt uns tatsächlich: „Ihr Modell passt gut zu den beobachteten Datenpunkten.“ -> Wie gut passen unsere Modelle? Was ist also der Unterschied zwischen R im Quadrat und RSE?

Jetzt ist der $ R ^ 2 $ das Verhältnis des $ SS_ {model} $ und der $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

Der $ R ^ 2 $ drückt aus, wie viel von der Gesamtvariation in den Daten durch das Modell (die Regression) erklärt werden kann Zeile). Denken Sie daran, dass die Gesamtvariation die Variation in den Daten war wenn wir das einfachste Modell an die Daten angepasst haben, d. h. den Mittelwert. Vergleichen Sie das Diagramm $ SS_ {total} $ mit dem Diagramm $ SS_ {model} $ .

Um Ihre zweite Frage zu beantworten, der Unterschied zwischen dem $ RSE $ und dem $ R ^ 2 $ bedeutet, dass der $ RSE $ etwas über die Ungenauigkeit des Modells (in diesem Fall der Regressionslinie) angesichts der beobachteten Daten aussagt.

Der $ R ^ 2 $ gibt andererseits an, wie viel Variation durch das Modell (dh die Regressionslinie) relativ zu der Variation erklärt wird, die durch das erklärt wurde Mittelwert allein (dh das einfachste Modell).

Q3:

  1. Stimmt es, dass wir einen F-Wert haben können, der eine starke Beziehung anzeigt, die NICHT LINEAR ist, so dass unser RSE hoch und unser R-Quadrat niedrig ist

Also t Der $ F $ -Wert auf der anderen Seite wird als Modellmittelwertquadrat $ MS_ {model} $ berechnet (oder das Signal) geteilt durch $ MS_ {Residuum} $ (Rauschen):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

Mit anderen Worten, der Wert $ F $ drückt aus, um wie viel sich das Modell (im Vergleich zum Mittelwert) aufgrund der Ungenauigkeit des Modells verbessert hat.

Ihre dritte Frage ist etwas schwer zu verstehen, aber ich stimme dem von Ihnen angegebenen Zitat zu.

Antwort

(2 ) Du verstehst es richtig, du hast es nur schwer mit dem Konzept.

Der Wert $ R ^ 2 $ gibt an, wie gut das Modell alle Daten berücksichtigt. Es kann nur Werte zwischen 0 und 1 annehmen. Dies ist der Prozentsatz der Abweichung der Punkte im Datensatz, den das Modell erklären kann.

Die RSE ist eher ein Deskriptor für die Abweichung von der Modell, das die Originaldaten darstellen. Das $ R ^ 2 $ sagt also: „Das Modell kann die dargestellten Daten gut erklären.“ Die RSE sagt: „Bei der Zuordnung haben wir erwartet, dass die Daten hier sind, aber hier waren sie tatsächlich.“ Sie sind sehr ähnlich, werden jedoch zur Validierung auf unterschiedliche Weise verwendet.

Antwort

Nur um das zu ergänzen, was Chris oben geantwortet hat:

Die F-Statistik ist die Division von das mittlere Modellquadrat und das mittlere Restquadrat. Software wie Stata liefert nach dem Anpassen eines Regressionsmodells auch den mit der F-Statistik verknüpften p-Wert. Auf diese Weise können Sie die Nullhypothese testen, dass die Koeffizienten Ihres Modells Null sind. Sie können sich dies als „statistische Signifikanz des gesamten Modells“ vorstellen.

Antwort

Wie ich in dieser anderen Antwort erwähne, $ F $ , $ RSS $ und $ R ^ 2 $ hängen alle zusammen relevanter Auszug:

Die F-Statistik zwischen zwei Modellen, das Nullmodell (nur Intercept) $ m_0 $ und das alternative Modell $ m_1 $ ( $ m_0 $ ist in $ m_1 $ ) ist:

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ rechts)} {\ links (\ frac {RSS_1} {n-p_1} \ rechts)} = \ links (\ frac {RSS_0-RSS_1} {p_1-p_0} \ rechts) \ links (\ frac {n-p_1} {RSS_1} \ right) $$

$ R ^ 2 $ ist dagegen definiert als:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

Neuanordnen von $ F $ Wir können Folgendes sehen:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ rechts) = \ links (\ frac {RSS_0} {RSS_1} -1 \ rechts) \ links (\ frac {n-p_1} {p_1-p_0} \ rechts) = \ links ( \ frac {R ^ 2} {1-R ^ 2} \ rechts) \ links (\ frac {n-p_1} {p_1-p_0} \ rechts) $$

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.