Jestem naprawdę zdezorientowany różnicą w znaczeniu w kontekście regresji liniowej następujących terminów:
- F statystyka
- R do kwadratu
- Resztkowy błąd standardowy
Udało mi się znaleźć tę stronę internetową co dało mi świetny wgląd w różne terminy związane z regresją liniową, jednak powyższe terminy wyglądają dość często (o ile rozumiem). Zacytuję to, co przeczytałem i co mnie zdezorientowało:
Resztkowy błąd standardowy jest miarą jakości dopasowania regresji liniowej ……. Resztkowy błąd standardowy to średnia wartość odpowiedzi (od ) odbiegnie od prawdziwej linii regresji.
1. To jest więc w rzeczywistości średnia odległość obserwowanych wartości od linii lm?
Statystyka R-kwadrat dostarcza mi pewność, jak dobrze model pasuje do rzeczywistych danych.
2. Teraz jestem zdezorientowany, ponieważ jeśli RSE mówi nam, jak daleko nasze obserwowane punkty odbiegają od linii regresji, niski RSE mówi nam” Twój model dobrze pasuje na podstawie zaobserwowanych punktów danych „- > jak dobrze pasują nasze modele, więc jaka jest różnica między R do kwadratu a RSE?
Statystyka F jest dobrym wskaźnikiem tego, czy istnieje związek między naszym predyktorem a zmiennymi odpowiedzi.
3. Czy to prawda, że możemy mieć wartość F wskazującą silna zależność, która jest NIELINIOWA, więc nasz RSE jest wysoki, a nasz R do kwadratu jest niski
Komentarze
- Q 3 Wartość F nie wskazuje na nieliniowy związek . Jest to stosunek, który wskazuje, czy istnieje istotna (stała) zależność między dwiema zmiennymi – zależną i niezależną.
- Nie mówi nam o istocie relacji – nieliniowej czy liniowej.
Odpowiedź
Najlepszym sposobem zrozumienia tych terminów jest ręczne obliczenie regresji. Napisałem dwie ściśle powiązane odpowiedzi ( tutaj i tutaj ), jednak mogą one nie w pełni pomóc rozumiesz swój konkretny przypadek. Niemniej jednak przeczytaj je. Może też pomogą ci lepiej konceptualizować te terminy.
W przypadku regresji (lub ANOVA) tworzymy model na podstawie przykładowego zbioru danych, który umożliwia nam przewidywanie wyników z populacji będącej przedmiotem zainteresowania. W tym celu oblicza się następujące trzy składowe za pomocą prostej regresji liniowej, na podstawie której można obliczyć inne składniki, np. średnie kwadraty, wartość F, $ R ^ 2 $ (również dostosowany $ R ^ 2 $ ) oraz resztkowy błąd standardowy ( $ RSE $ ):
- suma kwadratów ( $ SS_ {total} $ )
- pozostałe sumy kwadratów ( $ SS_ {residual} $ )
- modelowe sumy kwadratów ( $ SS_ {model} $ )
Każdy z nich ocenia, jak dobrze model opisuje dane i jest sumą kwadratów odległości od punktów danych do dopasowanego modelu (przedstawionego jako czerwone linie na poniższym wykresie).
$ SS_ {total} $ oceni, jak dobrze średnia pasuje do danych. Dlaczego wredny? Ponieważ średnia jest najprostszym modelem, jaki możemy dopasować, a zatem służy jako model, do którego porównuje się linię regresji najmniejszych kwadratów. Ten wykres wykorzystujący zestaw danych cars
pokazuje, że:
$ SS_ {residual} $ ocenia, jak dobrze linia regresji pasuje do danych.
$ SS_ {model} $ porównuje o ile lepsza jest linia regresji w porównaniu ze średnią (tj. różnica między $ SS_ {total} $ i $ SS_ {residual} $ ).
Aby odpowiedzieć na pytania , obliczmy najpierw te terminy, które chcesz zrozumieć, zaczynając od modelu i wyniku jako odniesienia:
# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares
Sumy kwadratów to kwadraty odległości poszczególne dane wskazują na model:
# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model
Średnie kwadraty to sumy kwadratów uśrednione na podstawie stopni swobody:
# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model
Moje odpowiedzi na Twoje pytania:
Q1:
- To jest właściwie średnia odległość obserwowanych wartości od linii lm?
resztkowy błąd standardowy ( $ RSE $ ) to pierwiastek kwadratowy z resztkowej średniej kwadratowej ( $ MS_ {r esidual} $ ):
# Calculate residual standard error res.se <- sqrt(ms.residual) res.se
Jeśli pamiętasz, że $ SS_ {residual} $ były kwadratami odległości obserwowanych punktów danych i modelu (linia regresji na drugim wykresie powyżej), a $ MS_ {residual} $ był po prostu averaged $ SS_ {residual} $ , odpowiedź na Twoją pierwszą pytanie brzmi: tak: $ RSE $ reprezentuje średnią odległość zaobserwowanych danych od modelu. Intuicyjnie ma to również sens, ponieważ im mniejsza odległość, tym lepsze dopasowanie modelu.
Q2:
- Teraz jestem zdezorientowany, ponieważ jeśli RSE mówi nam, jak daleko nasze obserwowane punkty odbiegają od linia regresji niski RSE w rzeczywistości mówi nam „twój model dobrze pasuje na podstawie zaobserwowanych punktów danych” -> więc jak dobrze pasują nasze modele, więc jaka jest różnica między R do kwadratu a RSE?
Teraz $ R ^ 2 $ to stosunek $ SS_ {model} $ i $ SS_ {total} $ :
# R squared r.sq <- ss.model/ss.total r.sq
$ R ^ 2 $ wyraża, jaka część całkowitej zmienności danych może być wyjaśniona przez model (regresja Należy pamiętać, że całkowita zmiana była odchyleniem w danych kiedy dopasowaliśmy do danych najprostszy model, czyli średnią. Porównaj wykres $ SS_ {total} $ z wykresem $ SS_ {model} $ .
Odpowiadając na drugie pytanie, zobaczmy różnicę między $ RSE $ a $ R ^ 2 $ polega na tym, że $ RSE $ mówi coś o niedokładności modelu (w tym przypadku linii regresji) na podstawie zaobserwowanych danych.
$ R ^ 2 $ z drugiej strony mówi ci, jak bardzo zmienność jest wyjaśniona przez model (tj. linię regresji) w stosunku do odchylenia wyjaśnionego przez sama w sobie (czyli najprostszy model).
Q3:
- Czy to prawda, że możemy mieć wartość F wskazującą na silną zależność, która nie jest LINIOWA, tak że nasz RSE jest wysoki, a R kwadratowy jest niski
So t on $ F $ -value z drugiej strony jest obliczany jako średnia kwadratowa modelu $ MS_ {model} $ (lub sygnał) podzielony przez $ MS_ {residual} $ (szum):
# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F
Innymi słowy $ F $ -value wyraża, jak bardzo model się poprawił (w porównaniu ze średnią) biorąc pod uwagę niedokładność modelu.
Twoje trzecie pytanie jest trochę trudne do zrozumienia, ale zgadzam się z cytatem, który podałeś.
Odpowiedź
(2 ) Rozumiesz to poprawnie, po prostu masz trudności z koncepcją.
Wartość R ^ 2 $ przedstawia, jak dobrze model uwzględnia wszystkie dane. Może przyjmować tylko wartości od 0 do 1. Jest to procent odchylenia punktów w zbiorze danych, który model może wyjaśnić.
RSE jest raczej deskryptorem tego, jakie odchylenie od model, który reprezentują oryginalne dane. Tak więc $ R ^ 2 $ mówi: „model dobrze sobie radzi z wyjaśnianiem prezentowanych danych”. RSE mówi: „Po zmapowaniu spodziewaliśmy się, że dane będą tutaj, ale tutaj faktycznie były”. Są bardzo podobne, ale służą do walidacji na różne sposoby.
Odpowiedź
Aby uzupełnić powyższą odpowiedź Chrisa:
Statystyka F to podział model średni kwadratowy i resztkowy średni kwadrat. Oprogramowanie takie jak Stata, po dopasowaniu modelu regresji, również dostarcza wartości p związanej ze statystyką F. Pozwala to przetestować hipotezę zerową, zgodnie z którą współczynniki modelu wynoszą zero. Można o tym myśleć jako o „statystycznej istotności modelu jako całości”.
Odpowiedź
Jak wskazałem w tej innej odpowiedzi , $ F $ , $ RSS $ i $ R ^ 2 $ są ze sobą powiązane. Oto odpowiedni fragment:
Statystyka F między dwoma modelami, modelem zerowym (tylko punkt przecięcia) $ m_0 $ i model alternatywny $ m_1 $ ( $ m_0 $ jest zagnieżdżony w $ m_1 $ ) to:
$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$
$ R ^ 2 $ z drugiej strony jest zdefiniowany jako:
$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$
Zmiana układu $ F $ widzimy, że:
$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ left ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$