Jsem opravdu zmatený ohledně rozdílu ve významu, pokud jde o kontext lineární regrese následujících výrazů:

  • F statistika
  • R na druhou
  • zbytková standardní chyba

Našel jsem tuto webovou stránku což mi poskytlo skvělý vhled do různých pojmů zapojených do lineární regrese, nicméně výše uvedené pojmy vypadají docela dost (pokud rozumím). Budu citovat, co jsem četl a co mě zmátlo:

Zbytková standardní chyba je měřítkem kvality přizpůsobení lineární regrese ……. Zbytková standardní chyba je průměrné množství, které odezva (dist ) se odchýlí od skutečné regresní přímky.

1. Toto je tedy vlastně průměrná vzdálenost pozorovaných hodnot od čáry lm?

Statistika R-kvadrát poskytuje me jak dobře model odpovídá skutečným datům.

2. Teď jsem zmatený, protože pokud nám RSE řekne, jak daleko se naše pozorované body odchylují od regresní přímky, nízké RSE nám vlastně říká„ váš model se dobře hodí na základě pozorovaných datových bodů “- > jak dobré jsou naše modely, tak jaký je rozdíl mezi R na druhou a RSE?

F-statistika je dobrým indikátorem toho, zda existuje vztah mezi naším prediktorem a proměnnými odpovědí.

3. Je pravda, že můžeme mít hodnotu F označující silný vztah, který je NELINEÁRNÍ, takže naše RSE je vysoká a náš R na druhou je nízký

Komentáře

  • Q 3 Fvalue neznamená nelineární vztah . Jedná se o poměr, který označuje, zda existuje věcný (konstantní) vztah mezi těmito dvěma proměnnými – závislou a nezávislou.
  • Neříká nám povahu vztahu – nelineární nebo lineární.

Odpověď

Nejlepší způsob, jak těmto termínům porozumět, je provést regresní výpočet ručně. Napsal jsem dvě úzce související odpovědi ( zde a zde ), nemusí však plně pomoci rozumíte svému konkrétnímu případu. Ale přečtěte si je přesto. Možná vám také pomohou lépe konceptualizovat tyto pojmy.

V regresi (nebo ANOVA) vytváříme model založený na ukázkové datové sadě, který nám umožňuje předvídat výsledky ze zájmové populace. K tomu se následující tři složky počítají v jednoduché lineární regrese, ze které lze vypočítat další složky, např. střední čtverce, hodnota F, $ R ^ 2 $ (také upravený $ R ^ 2 $ ) a zbývající standardní chyba ( $ RSE $ ):

  1. celkový součet čtverců ( $ SS_ {total} $ )
  2. zbytkové částky čtverců ( $ SS_ {residual} $ )
  3. modelové součty čtverců ( $ SS_ {model} $ )

Každý z nich hodnotí, jak dobře model popisuje data a je součtem čtverců vzdáleností od datových bodů k přizpůsobenému modelu (znázorněno červenými čarami na níže uvedeném grafu).

$ SS_ {total} $ vyhodnotí, jak dobře se průměr hodí k datům. Proč průměr? Protože průměr je nejjednodušší model, do kterého se vejde, a slouží tedy jako model, se kterým je srovnávána regresní čára nejmenších čtverců. Tento graf využívající cars datovou sadu ilustruje, že:

zadat popis obrázku zde

$ SS_ {residual} $ hodnotí, jak dobře se regresní čára hodí k datům.

zde zadejte popis obrázku

$ SS_ {model} $ porovnává, o kolik lépe je regresní čára ve srovnání se střední hodnotou (tj. rozdíl mezi $ SS_ {total} $ a $ SS_ {residual} $ ).

sem zadejte popis obrázku

Odpovědi na vaše otázky , nejprve vypočítáme výrazy, kterým chcete porozumět, počínaje modelem a výstupem jako reference:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

Součty čtverců jsou druhou mocninou vzdáleností jednotlivá data ukazují na model:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

Průměrné čtverce jsou součty čtverců zprůměrované podle stupňů volnosti:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Moje odpovědi na vaše otázky:

Q1:

  1. Toto je tedy ve skutečnosti průměrná vzdálenost pozorovaných hodnot od čáry lm?

zbytková standardní chyba ( $ RSE $ ) je druhá odmocnina zbytkové střední kvadratury ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Pokud si pamatujete, že $ SS_ {residual} $ byly čtvercové vzdálenosti pozorovaných datových bodů a modelu (regresní čára ve druhém grafu výše) a $ MS_ {residual} $ bylo jen v průměru $ SS_ {residual} $ , odpověď na vaši první Otázkou je, ano: $ RSE $ představuje průměrnou vzdálenost pozorovaných dat z modelu. Intuitivně to dává také dokonalý smysl, protože pokud je vzdálenost menší, je váš model také lepší.

Q2:

  1. Teď jsem zmatený, protože pokud nám RSE řekne, jak daleko se naše pozorované body odchylují od regresní přímka, která nám říká nízké RSE, „váš model se dobře hodí na základě pozorovaných datových bodů“ -> jak dobré jsou tedy naše modely, tak jaký je rozdíl mezi R na druhou a RSE?

Nyní je $ R ^ 2 $ poměr $ SS_ {model} $ a $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

$ R ^ 2 $ vyjadřuje, kolik z celkové variace v datech lze vysvětlit modelem (regrese Pamatujte, že celková změna byla změnou v datech když jsme datům přizpůsobili nejjednodušší model, tj. průměr. Porovnejte graf $ SS_ {total} $ s grafem $ SS_ {model} $ .

Chcete-li tedy odpovědět na druhou otázku, je rozdíl mezi $ RSE $ a $ R ^ 2 $ je to, že $ RSE $ vám řekne něco o nepřesnosti modelu (v tomto případě regresní přímky) vzhledem k pozorovaným údajům.

$ R ^ 2 $ na druhé straně vám řekne, kolik variací je vysvětleno modelem (tj. regresní přímka) ve vztahu k variantě, která byla vysvětlena znamená sám (tj. nejjednodušší model).

Q3:

  1. Je pravda, že můžeme mít hodnotu F označující silný vztah NON LINEÁRNÍ, takže naše RSE je vysoká a náš R na druhou je nízký

Takže t Hodnota $ F $ na druhé straně se počítá jako střední kvadratický model $ MS_ {model} $ (nebo signál) děleno $ MS_ {residual} $ (šum):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

Nebo jinými slovy $ F $ -value vyjadřuje, o kolik se model zlepšil (ve srovnání se střední hodnotou) vzhledem k nepřesnosti modelu.

Tvé třetí otázce je trochu obtížné porozumět, ale souhlasím s uvedenou citací.

Odpověď

(2 ) Chápete to správně, jen jste s tímto konceptem těžko.

Hodnota $ R ^ 2 $ představuje, jak dobře model zohledňuje všechna data. Může nabývat pouze hodnot mezi 0 a 1. Je to procento odchylky bodů v datové sadě, které může model vysvětlit.

RSE je spíše deskriptorem toho, jaká je odchylka od model, který představují původní data. $ R ^ 2 $ tedy říká: „Model to dělá dobře při vysvětlování prezentovaných dat.“ RSE říká: „Při mapování jsme očekávali, že data budou tady, ale tady jsou, kde ve skutečnosti byla.“ Jsou velmi podobné, ale používají se k ověření různými způsoby.

Odpověď

Jen pro doplnění toho, co Chris odpověděl výše:

F-statistika je rozdělení střední kvadrát modelu a zbytkový střední kvadrát. Software jako Stata po přizpůsobení regresnímu modelu také poskytuje hodnotu p spojenou s F-statistikou. To vám umožní otestovat nulovou hypotézu, že koeficienty vašeho modelu jsou nulové. Mohli byste to považovat za „statistickou významnost modelu jako celku.“

Odpověď

Jak zdůrazňuji v této další odpovědi , $ F $ , $ RSS $ a $ R ^ 2 $ spolu souvisejí. Tady je relevantní výňatek:

F-statistika mezi dvěma modely, nulový model (pouze intercept) $ m_0 $ a alternativní model $ m_1 $ ( $ m_0 $ je vnořený do $ m_1 $ ) je:

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$

$ R ^ 2 $ na druhé straně je definován jako:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

Přeskupení $ F $ vidíme, že:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ left ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *