Nagyon zavaros vagyok a következő terminusok lineáris regressziójának összefüggésében a jelentésbeli különbségeket illetően:

  • F statisztika
  • R négyzet
  • Maradék standard hiba

Találtam ezt a webstie-t , amely nagyszerű betekintést adott a lineáris regresszióban részt vevő különböző kifejezésekbe, azonban a fent említett kifejezések elég sokat mutatnak (amennyire megértem). Idézem, amit olvastam, és ami megzavart:

A maradék standard hiba a lineáris regressziós illesztés minőségének a mértéke ……. A maradék standard hiba az átlagos összeg, amelyet a válasz (dist ) eltér az igaz regressziós vonaltól.

1. Ez tehát valójában a megfigyelt értékek átlagos távolsága az lm vonaltól?

Az R négyzet statisztika egy me arról, hogy a modell mennyire illeszkedik a tényleges adatokhoz.

2. Most összezavarodom, mert ha az RSE megmondja, hogy a megfigyelt pontjaink mennyire térnek el a regressziós vonaltól, akkor egy alacsony RSE valójában azt mondja nekünk, hogy” a modelled jól illeszkedik a megfigyelt adatpontok alapján ” > így mennyire megfelelnek modelljeink, mi a különbség az R négyzet és az RSE között?

Az F-statisztika jó mutató arra, hogy van-e kapcsolat prediktorunk és a válaszváltozók között.

3. Igaz-e, hogy rendelkezhetünk F-értékkel, amely erős kapcsolat, amely NEM LINEÁRIS, így magas az RSE és alacsony az R négyzet

megjegyzés

  • Q 3 Fvalue nem jelzi a nem lineáris kapcsolatot . Ez egy olyan arány, amely azt jelzi, hogy van-e érdemi (állandó) kapcsolat a két változó között – függő és független.
  • Nem árulja el nekünk a kapcsolat természetét – nemlineáris vagy lineáris.

Válasz

E kifejezések megértésének legjobb módja a regressziószámítás kézzel történő elvégzése. Két szorosan kapcsolódó választ írtam ( ide és ide ), de nem biztos, hogy teljes mértékben segítenek megérted a konkrét esetedet. De ennek ellenére olvassa végig őket. Talán ezek is segítenek neked jobban megfogalmazni ezeket a kifejezéseket.

Egy regresszióban (vagy ANOVA-ban) egy minta adatkészletre építünk egy modellt, amely lehetővé teszi számunkra, hogy megjósoljuk az érdeklődésre számot tartó populáció eredményeit. Ehhez a következő három komponenst egyszerű lineáris regresszióval számoljuk, amelyből a többi komponens kiszámítható, pl. az átlagos négyzetek, az F-érték, a $ R ^ 2 $ (a korrigált $ R ^ 2 $ ), és a maradék standard hiba ( $ RSE $ ):

  1. négyzetek összesített összege ( $ SS_ {total} $ )
  2. négyzetek maradványösszege ( $ SS_ {residual} $ )
  3. négyzetek modellösszegei ( $ SS_ {model} $ )

Mindegyik felméri, hogy a A modell leírja az adatokat, és összeadja az adatpontok és az illesztett modell közötti négyzet távolságot (piros vonalakkal szemléltetve az alábbi ábrán).

A $ SS_ {total} $ értékeli, hogy az átlag mennyire illeszkedik az adatokhoz. Miért az aljas? Mivel az átlag a legegyszerűbb modell, amelyet be tudunk illeszteni, és ezért szolgál a modellként, amelyhez a legkisebb négyzetek regressziós vonalát hasonlítják. Ez a cars adatkészletet használó diagram azt illusztrálja, hogy:

adja meg a kép leírását itt

A $ SS_ {residual} $ értékeli, hogy a regressziós vonal mennyire illeszkedik az adatokhoz.

írja ide a kép leírását

A $ SS_ {model} $ összehasonlítja, hogy a regressziós vonal mennyivel jobb az átlaghoz képest (azaz a $ SS_ {total} $ és a $ SS_ {residual} $ ).

írja ide a kép leírását

Kérdéseire válaszoljon , először számítsuk ki azokat a kifejezéseket, amelyeket meg akar érteni, kezdve a modellel és a kimenettel, referenciaként:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

A négyzetek összegei a az egyes adatok a modellre mutatnak:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

Az átlagos négyzetek a szabadság fokai által átlagolt négyzetek összegei:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Válaszaim a kérdéseidre:

Q1:

  1. Ez tehát valójában a megfigyelt értékek átlagos távolsága az lm vonaltól?

A maradvány standard hiba ( $ RSE $ ) a maradék átlag négyzet négyzetgyök ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Ha emlékszel, hogy a $ SS_ {maradék} $ a megfigyelt adatpontok és a modell négyzetes távolságai voltak (regressziós vonal a fenti második ábrán), és $ MS_ {maradék} $ csak a átlagolt $ SS_ {maradék} $ , az első válasz kérdés az, hogy igen: A $ RSE $ a megfigyelt adatok átlagos távolságát jelenti a modelltől. Intuitív módon ennek is van értelme, mert ha kisebb a távolság, akkor a modell illeszkedése is jobb.

Q2:

  1. Most összezavarodom, mert ha az RSE megmondja, hogy a megfigyelt pontjaink mennyire térnek el a regressziós vonal, az alacsony RSE valójában azt mondja nekünk, hogy “modelled jól illeszkedik a megfigyelt adatpontok alapján” -> így mennyire jól illeszkednek modelljeink, tehát mi a különbség az R négyzet és az RSE között?

Most a $ R ^ 2 $ a $ SS_ {model} $ és a $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

A $ R ^ 2 $ kifejezi, hogy az adatokban szereplő teljes variáció mekkora részét magyarázhatja a modell (a regresszió ne feledje, hogy a teljes variáció az adatok variációja volt amikor a legegyszerűbb modellt illesztettük az adatokhoz, vagyis az átlagot. Hasonlítsa össze a $ SS_ {total} $ ábrát a $ SS_ {model} $ ábrával.

A második kérdés megválaszolásához tehát a $ RSE $ és a $ R ^ 2 $ az, hogy a $ RSE $ elmond valamit a modell (ebben az esetben a regressziós vonal) pontatlanságáról, ha a megfigyelt adatokat megadta.

A $ R ^ 2 $ viszont megmondja, hogy a modell (azaz a regressziós vonal) mennyi variációt magyaráz meg a relációval, amelyet a egyedül jelent (azaz a legegyszerűbb modell).

Q3:

  1. Igaz-e, hogy rendelkezhetünk F-értékkel, amely jelzi az erős kapcsolatot, amely NEM LINEÁRIS, így magas az RSE-nk és alacsony az R-négyzet

Tehát t a másik $ F $ értéket a modell átlagos négyzetének számítja ki $ MS_ {model} $ (vagy a jel) elosztva a $ MS_ {residual} $ (zaj):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

Vagy más szavakkal, a $ F $ -érték kifejezi, hogy a modell mennyi javult (az átlaghoz képest), tekintettel a modell pontatlanságára.

A harmadik kérdésed kissé nehezen érthető, de egyetértek a megadott idézettel.

Válasz

(2 ) Helyesen érted, csak nehezen viszed a koncepciót.

A $ R ^ 2 $ érték azt jelzi, hogy a modell mennyire tudja figyelembe venni az összes adatot. Csak 0 és 1 közötti értékeket vehet fel. A modell megmagyarázhatja az adatkészlet pontjainak eltérésének százalékos arányát.

Az RSE inkább annak leírása, hogy az eltérés az eredeti adatokat ábrázolja. Tehát a $ R ^ 2 $ azt mondja: “a modell ezt jól megmagyarázza a bemutatott adatokra”. Az RSE szerint “feltérképezéskor arra számítottunk, hogy az adatok itt lesznek, de itt van, ahol valójában volt.” Nagyon hasonlóak, de különböző módon érvényesítik őket.

Válasz

Csak kiegészítve azt, amit Chris fent válaszolt:

Az F-statisztika a a modell átlagos négyzete és a maradék négyzet közepe. A Stata-hoz hasonló szoftverek a regressziós modell illesztése után megadják az F-statisztikához társított p-értéket is. Ez lehetővé teszi, hogy tesztelje azt a nullhipotézist, miszerint a modell együtthatói nullaak. Úgy gondolhatna rá, mint a “modell egészének statisztikai szignifikanciájára”. >

Ahogy ebben a másik válaszban rámutattam , $ F $ , $ RSS $ és $ R ^ 2 $ mind összefüggenek egymással. Itt vannak a releváns részlet:

Az F-statisztika két modell között, a null modell (csak elfogás) $ m_0 $ és az alternatív modell $ m_1 $ ( $ m_0 $ be van ágyazva a $ m_1 $ ):

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ jobbra}} {\ balra (\ frac {RSS_1} {n-p_1} \ jobbra)} = \ balra (\ frac {RSS_0-RSS_1} {p_1-p_0} \ jobbra) \ balra (\ frac {n-p_1} {RSS_1} \ jobbra) $$

$ R ^ 2 $ viszont a következő:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

A $ F $ láthatjuk, hogy:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ jobbra = = balra (\ frac {RSS_0} {RSS_1} -1 \ jobbra) \ balra (\ frac {n-p_1} {p_1-p_0} \ jobbra) = \ balra ( \ frac {R ^ 2} {1-R ^ 2} \ jobbra} \ balra (\ frac {n-p_1} {p_1-p_0} \ jobbra) $$

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük