Jeg er veldig forvirret over forskjellen i mening angående konteksten av lineær regresjon av følgende termer:
- F statistikk
- R kvadrat
- Reststandardfeil
Jeg fant denne nettstilen som ga meg god innsikt i de forskjellige begrepene som er involvert i lineær regresjon, men begrepene nevnt ovenfor ser ganske mye ut (så vidt jeg forstår). Jeg vil sitere hva jeg leste og hva som forvirret meg:
Reststandardfeil er et mål på kvaliteten på en lineær regresjonspassing ……. Residual Standard Error er gjennomsnittlig mengde som responsen (dist ) vil avvike fra den sanne regresjonslinjen.
1. Dette er altså faktisk den gjennomsnittlige avstanden til de observerte verdiene fra lm-linjen?
R-kvadratstatistikken gir meg en sikre på hvor godt modellen passer til de faktiske dataene.
2. Nå blir jeg forvirret fordi hvis RSE forteller oss hvor langt våre observerte punkter avviker fra regresjonslinjen, forteller en lav RSE oss» modellen din passer godt basert på de observerte datapunktene «- > hvor bra modellene våre passer, så hva er forskjellen mellom R kvadrat og RSE?
F-statistikk er en god indikator på om det er en sammenheng mellom prediktoren vår og responsvariablene.
3. Er det sant at vi kan ha en F-verdi som indikerer en sterkt forhold som er IKKE LINJÆRT slik at vår RSE er høy og vår R-kvadrat er lav
Kommentarer
- Q 3 Fvalue indikerer ikke ikke-lineært forhold . Det er et forhold som indikerer om det er et substantielt (konstant) forhold mellom de to variablene – avhengig og uavhengig.
- Det forteller oss ikke forholdet til forholdet – ikke-lineært eller lineært.
Svar
Den beste måten å forstå disse begrepene er å gjøre en regresjonsberegning for hånd. Jeg skrev to nært beslektede svar ( her og her ), men de hjelper kanskje ikke fullt ut du forstår din spesielle sak. Men les gjennom dem likevel. Kanskje de også vil hjelpe deg med å konseptualisere disse begrepene bedre.
I en regresjon (eller ANOVA) bygger vi en modell basert på et eksempeldatasett som gjør det mulig å forutsi resultater fra en populasjon av interesse. For å gjøre dette blir de følgende tre komponentene beregnet i en enkel lineær regresjon hvorfra de andre komponentene kan beregnes, f.eks. middelkvadratene, F-verdien, $ R ^ 2 $ (også den justerte $ R ^ 2 $ ), og den gjenværende standardfeilen ( $ RSE $ ):
- sum av kvadrater ( $ SS_ {total} $ )
- restsummer av kvadrater ( $ SS_ {residual} $ )
- modellsummer av firkanter ( $ SS_ {model} $ )
Hver av dem vurderer hvor godt modellen beskriver dataene og er summen av de kvadratiske avstandene fra datapunktene til den tilpassede modellen (illustrert som røde linjer i plottet nedenfor).
$ SS_ {total} $ vurder hvor godt gjennomsnittet passer til dataene. Hvorfor mener? Fordi gjennomsnittet er den enkleste modellen vi kan passe, og tjener dermed som modellen som regresjonslinjen med minste kvadrat sammenlignes med. Dette plottet med cars
datasettet illustrerer at:
$ SS_ {residual} $ vurderer hvor godt regresjonslinjen passer til dataene.
$ SS_ {model} $ sammenligner hvor mye bedre regresjonslinjen er sammenlignet med gjennomsnittet (dvs. forskjellen mellom $ SS_ {total} $ og $ SS_ {residual} $ ).
For å svare på spørsmålene dine , la oss først beregne de begrepene du vil forstå fra og med modell og utgang som referanse:
# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares
Summen av kvadrater er kvadratavstandene til de individuelle dataene peker til modellen:
# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model
Gjennomsnittlige kvadrater er summen av kvadrater i gjennomsnitt av frihetsgrader:
# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model
Mine svar på spørsmålene dine:
Q1:
- Dette er altså faktisk den gjennomsnittlige avstanden til de observerte verdiene fra lm-linjen?
reststandardfeilen ( $ RSE $ ) er kvadratroten til gjenværende gjennomsnitts kvadrat ( $ MS_ {r esidual} $ ):
# Calculate residual standard error res.se <- sqrt(ms.residual) res.se
Hvis du husker at $ SS_ {residual} $ var kvadratdistansene for de observerte datapunktene og modellen (regresjonslinje i det andre plottet ovenfor), og $ MS_ {residual} $ var bare gjennomsnitt $ SS_ {residual} $ , svaret på din første spørsmålet er, ja: $ RSE $ representerer den gjennomsnittlige avstanden til de observerte dataene fra modellen. Intuitivt gir dette også perfekt mening. Hvis avstanden er mindre, er modelltilpasningen din også bedre.
Q2:
- Nå blir jeg forvirret fordi hvis RSE forteller oss hvor langt våre observerte punkter avviker fra regresjonslinje en lav RSE forteller oss faktisk «modellen din passer bra basert på de observerte datapunktene» -> dermed hvor bra modellene våre passer, så hva er forskjellen mellom R kvadrat og RSE?
Nå er $ R ^ 2 $ forholdet mellom $ SS_ {model} $ og $ SS_ {total} $ :
# R squared r.sq <- ss.model/ss.total r.sq
$ R ^ 2 $ uttrykker hvor mye av totalvariasjonen i dataene som kan forklares med modellen (regresjonen Husk at den totale variasjonen var variasjonen i dataene når vi tilpasset den enkleste modellen til dataene, dvs. gjennomsnittet. Sammenlign $ SS_ {total} $ plot med $ SS_ {model} $ plot.
Så for å svare på det andre spørsmålet ditt, er forskjellen mellom $ RSE $ og $ R ^ 2 $ er at $ RSE $ forteller deg noe om unøyaktigheten til modellen (i dette tilfellet regresjonslinjen) gitt de observerte dataene.
$ R ^ 2 $ derimot forteller deg hvor mye variasjon som forklares av modellen (dvs. regresjonslinjen) i forhold til variasjonen som ble forklart av mener alene (dvs. den enkleste modellen).
Q3:
- Er det sant at vi kan ha en F-verdi som indikerer et sterkt forhold som er IKKE LINJÆRT slik at vår RSE er høy og vår R-kvadrat er lav
Så t han $ F $ -verdi på den andre beregnes som modellens gjennomsnittlige firkant $ MS_ {model} $ (eller signalet) delt på $ MS_ {residual} $ (noise):
# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F
Eller med andre ord $ F $ -verdien uttrykker hvor mye av modellen som er forbedret (sammenlignet med gjennomsnittet) gitt modellens unøyaktighet.
Det tredje spørsmålet ditt er litt vanskelig å forstå, men jeg er enig i sitatet du har gitt.
Svar
(2 ) Du forstår det riktig, du har det bare vanskelig med konseptet.
Verdien $ R ^ 2 $ representerer hvor godt modellen står for alle dataene. Det kan bare ta på seg verdier mellom 0 og 1. Det er prosentandelen av avviket til punktene i datasettet som modellen kan forklare.
RSE er mer en beskrivelse av hva avviket fra modell de originale dataene representerer. Så, $ R ^ 2 $ sier, «modellen gjør dette godt for å forklare de presenterte dataene.» RSE sier, «når vi ble kartlagt, forventet vi at dataene skulle være her, men her er hvor de faktisk var.» De er veldig like, men brukes til å validere på forskjellige måter.
Svar
Bare for å utfylle det Chris svarte ovenfor:
F-statistikken er inndelingen av modellen gjennomsnittlig kvadrat og det gjenværende middel kvadrat. Programvare som Stata, etter å ha tilpasset en regresjonsmodell, gir også p-verdien assosiert med F-statistikken. Dette lar deg teste nullhypotesen om at modellens koeffisienter er null. Du kan tenke på det som den «statistiske signifikansen til modellen som helhet.»
Svar
Som jeg påpeker i dette andre svaret , $ F $ , $ RSS $ og $ R ^ 2 $ er alle sammen. Her er relevant utdrag:
F-statistikken mellom to modeller, nullmodellen (bare avlyssning) $ m_0 $ og den alternative modellen $ m_1 $ ( $ m_0 $ er nestet i $ m_1 $ ) er:
$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$
$ R ^ 2 $ derimot, er definert som:
$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$
Omorganisering $ F $ vi kan se at:
$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ left ( \ frac {R ^ 2} {1-R ^ 2} \ høyre) \ venstre (\ frac {n-p_1} {p_1-p_0} \ høyre) $$