Jag är verkligen förvirrad över skillnaden i mening angående kontexten för linjär regression av följande termer:

  • F statistik
  • R kvadrat
  • Återstående standardfel

Jag hittade den här webbstilen vilket gav mig stor inblick i de olika termerna som är involverade i linjär regression, men de ovan nämnda termerna ser ut som en hel del (såvitt jag förstår). Jag kommer att citera vad jag läste och vad som förvirrade mig:

Restfel är ett mått på kvaliteten på en linjär regressionspassning … Restfel är det genomsnittliga belopp som svaret (dist ) kommer att avvika från den sanna regressionslinjen.

1. Detta är alltså faktiskt det genomsnittliga avståndet för de observerade värdena från lm-linjen?

R-kvadratstatistiken ger mig säker på hur väl modellen passar de faktiska uppgifterna.

2. Nu blir jag förvirrad för om RSE berättar för oss hur långt våra observerade punkter avviker från regressionslinjen, säger en låg RSE oss” din modell passar bra baserat på de observerade datapunkterna ”- > hur bra våra modeller passar, så vad är skillnaden mellan R kvadrat och RSE?

F-statistik är en bra indikator på om det finns ett samband mellan vår prediktor och svarsvariablerna.

3. Är det sant att vi kan ha ett F-värde som indikerar en starkt förhållande som är INTE LINJÄRT så att vår RSE är hög och vår R-kvadrat är låg

Kommentarer

  • Q 3 Fvalue indikerar inte icke linjär relation . Det är ett förhållande som indikerar om det finns ett väsentligt (konstant) förhållande mellan de två variablerna – beroende och oberoende.
  • Det berättar inte om relationen – icke-linjär eller linjär.

Svar

Det bästa sättet att förstå dessa termer är att göra en regressionsberäkning för hand. Jag skrev två närbesläktade svar ( här och här ), men de kanske inte hjälper till du förstår just ditt fall. Men läs igenom dem ändå. Kanske kommer de också att hjälpa dig att begreppsmässigt formulera dessa termer bättre.

I en regression (eller ANOVA) bygger vi en modell baserad på ett provdataset som gör det möjligt för oss att förutsäga resultat från en befolkning av intresse. För att göra detta beräknas följande tre komponenter i en enkel linjär regression från vilken de andra komponenterna kan beräknas, t.ex. medelkvadraterna, F-värdet, $ R ^ 2 $ (även den justerade $ R ^ 2 $ ) och det återstående standardfelet ( $ RSE $ ):

  1. totala kvadratsummor ( $ SS_ {total} $ )
  2. resterande kvadratsummor ( $ SS_ {residual} $ )
  3. modellsummor av kvadrater ( $ SS_ {model} $ )

Var och en av dem bedömer hur väl modellen beskriver data och är summan av de kvadratiska avstånden från datapunkterna till monterad modell (illustreras som röda linjer i diagrammet nedan).

$ SS_ {total} $ bedömer hur väl medelvärdet passar uppgifterna. Varför betyder det? Eftersom medelvärdet är den enklaste modellen vi kan passa och därmed fungerar som den modell som regressionslinjen med minst kvadrat jämförs med. Denna plot med cars dataset illustrerar att:

ange bildbeskrivning här

$ SS_ {residual} $ bedömer hur väl regressionslinjen passar data.

ange bildbeskrivning här

$ SS_ {model} $ jämför hur mycket bättre regressionslinjen jämförs med medelvärdet (dvs. skillnaden mellan $ SS_ {total} $ och $ SS_ {residual} $ ).

ange bildbeskrivning här

För att svara på dina frågor , låt oss först beräkna de termer som du vill förstå med början med modell och utdata som referens:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

Summan av kvadraterna är kvadratavstånden till de enskilda datapunkterna till modellen:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

Medelkvadraterna är summan av kvadrater i genomsnitt av frihetsgraderna:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Mina svar på dina frågor:

Q1:

  1. Detta är alltså faktiskt det genomsnittliga avståndet för de observerade värdena från lm-raden?

återstående standardfel ( $ RSE $ ) är kvadratroten av kvarvarande medelkvadrat ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Om du kommer ihåg att $ SS_ {rest} $ var de kvadrerade avstånden för de observerade datapunkterna och modellen (regressionslinjen i det andra diagrammet ovan), och $ MS_ {residual} $ var bara genomsnitt $ SS_ {residual} $ , svaret på din första frågan är ja: $ RSE $ representerar det genomsnittliga avståndet för observerade data från modellen. Intuitivt är detta också vettigt, för om avståndet är mindre är din modellpassning också bättre.

F2:

  1. Nu blir jag förvirrad för om RSE berättar hur långt våra observerade punkter avviker från regressionslinje en låg RSE säger faktiskt att ”din modell passar bra baserat på de observerade datapunkterna” -> hur bra våra modeller passar, så vad är skillnaden mellan R kvadrat och RSE?

Nu är $ R ^ 2 $ förhållandet mellan $ SS_ {model} $ och $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

$ R ^ 2 $ uttrycker hur mycket av den totala variationen i data som kan förklaras av modellen (regressionen Kom ihåg att den totala variationen var variationen i data när vi anpassade den enklaste modellen till data, dvs. medelvärdet. Jämför $ SS_ {total} $ plot med $ SS_ {model} $ plot.

Så att svara på din andra fråga, skillnaden mellan $ RSE $ och $ R ^ 2 $ är att $ RSE $ berättar något om modellens felaktighet (i detta fall regressionslinjen) med tanke på de observerade uppgifterna.

$ R ^ 2 $ å andra sidan berättar hur mycket variation förklaras av modellen (dvs. regressionslinjen) relativt variationen som förklarades av menar ensam (dvs. den enklaste modellen).

Q3:

  1. Är det sant att vi kan ha ett F-värde som indikerar ett starkt förhållande som är INTE LINJÄRT så att vår RSE är hög och vår R-kvadrat är låg

Så t han $ F $ -värde å andra sidan beräknas som modellvärdet $ MS_ {model} $ (eller signalen) dividerat med $ MS_ {residual} $ (noise):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

Eller med andra ord $ F $ -värde uttrycker hur mycket av modellen som har förbättrats (jämfört med medelvärdet) med tanke på modellens felaktighet.

Din tredje fråga är lite svår att förstå men jag håller med citatet som du har angett.

Svar

(2 ) Du förstår det rätt, du har bara svårt med konceptet.

Värdet $ R ^ 2 $ representerar hur väl modellen står för all data. Det kan bara ta på sig värden mellan 0 och 1. Det är procentandelen av avvikelsen för punkterna i datasetet som modellen kan förklara.

RSE är mer en beskrivning av vad avvikelsen från modell som originaldata representerar. Så säger $ R ^ 2 $, ”modellen gör det bra för att förklara de presenterade data.” RSE säger, ”när vi kartlagts förväntade vi oss att uppgifterna skulle vara här, men här är det där det faktiskt var.” De är mycket lika men används för att validera på olika sätt.

Svar

Bara för att komplettera vad Chris svarade ovan:

F-statistiken är uppdelningen av modellens medelkvadrat och det återstående medelvärdet. Programvara som Stata, efter att ha anpassat en regressionsmodell, ger också p-värdet associerat med F-statistiken. Detta gör att du kan testa nollhypotesen om att modellens koefficienter är noll. Du kan tänka dig den som ”statistisk signifikans för modellen som helhet.” >

Som jag påpekar i detta andra svar , $ F $ , $ RSS $ och $ R ^ 2 $ är alla relaterade. Här är relevant utdrag:

F-statistiken mellan två modeller, nollmodellen (endast avlyssning) $ m_0 $ och den alternativa modellen $ m_1 $ ( $ m_0 $ är kapslad inom $ m_1 $ ) är:

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ höger)} {\ vänster (\ frac {RSS_1} {n-p_1} \ höger)} = \ vänster (\ frac {RSS_0-RSS_1} {p_1-p_0} \ höger) \ vänster (\ frac {n-p_1} {RSS_1} \ höger) $$

$ R ^ 2 $ definieras å andra sidan som:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

Ordna om $ F $ vi kan se att:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ höger) = \ vänster (\ frac {RSS_0} {RSS_1} -1 \ höger) \ vänster (\ frac {n-p_1} {p_1-p_0} \ höger) = \ vänster ( \ frac {R ^ 2} {1-R ^ 2} \ höger) \ vänster (\ frac {n-p_1} {p_1-p_0} \ höger) $$

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *