Jeg er virkelig forvirret over forskellen i betydning med hensyn til sammenhæng med lineær regression af følgende udtryk:
- F statistik
- R kvadrat
- Reststandardfejl
Jeg fandt denne webstie som gav mig stor indsigt i de forskellige udtryk, der er involveret i lineær regression, men de ovennævnte udtryk ser meget ud (så vidt jeg forstår). Jeg vil citere, hvad jeg læste, og hvad der forvirrede mig:
Reststandardfejl er et mål for kvaliteten af en lineær regressionstilpasning ……. Residual Standard Error er det gennemsnitlige beløb, som svaret (dist ) vil afvige fra den sande regressionslinie.
1. Dette er således faktisk den gennemsnitlige afstand for de observerede værdier fra lm-linjen?
R-kvadratstatistikken giver mig en sikre på, hvor godt modellen passer til de faktiske data.
2. Nu bliver jeg forvirret, for hvis RSE fortæller os, hvor langt vores observerede punkter afviger fra regressionslinjen, fortæller en lav RSE os faktisk” din model passer godt ud fra de observerede datapunkter “- > hvor god vores modeller passer således, så hvad er forskellen mellem R kvadrat og RSE?
F-statistik er en god indikator for, om der er en sammenhæng mellem vores forudsigere og responsvariablerne.
3. Er det sandt, at vi kan have en F-værdi, der angiver en stærkt forhold, der er IKKE LINJÆRT, så vores RSE er høj, og vores R-kvadrat er lav
Kommentarer
- Q 3 Fvalue indikerer ikke ikke-lineært forhold . Det er et forhold, der indikerer, om der er en substansiel (konstant) sammenhæng mellem de to variabler – afhængige og uafhængige.
- Det fortæller os ikke forholdet til forholdet – ikke-lineært eller lineært.
Svar
Den bedste måde at forstå disse termer på er at lave en regressionsberegning i hånden. Jeg skrev to nært beslægtede svar ( her og her ), men de hjælper måske ikke fuldt ud du forstår din særlige sag. Men læs dem alligevel igennem. Måske hjælper de dig også med at opfatte disse termer bedre.
I en regression (eller ANOVA) bygger vi en model baseret på et eksempeldatasæt, der gør det muligt for os at forudsige resultater fra en befolkning af interesse. For at gøre dette beregnes de følgende tre komponenter i en simpel lineær regression, hvorfra de andre komponenter kan beregnes, f.eks. de gennemsnitlige firkanter, F-værdien, $ R ^ 2 $ (også den justerede $ R ^ 2 $ ) og den resterende standardfejl ( $ RSE $ ):
- samlede kvadratsummer ( $ SS_ {total} $ )
- resterende sum af kvadrater ( $ SS_ {residual} $ )
- model sum af kvadrater ( $ SS_ {model} $ )
Hver af dem vurderer, hvor godt modellen beskriver dataene og er summen af de kvadratiske afstande fra datapunkterne til den tilpassede model (illustreret som røde linjer i plottet nedenfor).
$ SS_ {total} $ vurder, hvor godt gennemsnittet passer til dataene. Hvorfor middelværdien? Fordi middelværdien er den enkleste model, vi kan passe og derfor fungerer som den model, som den mindste kvadratregressionslinje sammenlignes med. Dette plot ved hjælp af cars
datasættet illustrerer at:
$ SS_ {residual} $ vurderer, hvor godt regressionslinjen passer til dataene.
$ SS_ {model} $ sammenligner hvor meget bedre regressionslinjen er sammenlignet med gennemsnittet (dvs. forskellen mellem $ SS_ {total} $ og $ SS_ {residual} $ ).
For at besvare dine spørgsmål , lad os først beregne de termer, som du vil forstå startende med model og output som reference:
# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares
Summen af kvadraterne er de kvadratiske afstande af de enkelte data peger på modellen:
# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model
Gennemsnitlige kvadrater er summen af kvadrater, der er gennemsnittet af frihedsgraderne:
# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model
Mine svar på dine spørgsmål:
Q1:
- Dette er således faktisk den gennemsnitlige afstand for de observerede værdier fra lm-linjen?
Den resterende standardfejl ( $ RSE $ ) er kvadratroden af resterende middel kvadrat ( $ MS_ {r esidual} $ ):
# Calculate residual standard error res.se <- sqrt(ms.residual) res.se
Hvis du husker at $ SS_ {residual} $ var de kvadrerede afstande for de observerede datapunkter og modellen (regressionslinie i det andet plot ovenfor), og $ MS_ {residual} $ var bare gennemsnit $ SS_ {residual} $ , svaret på din første spørgsmålet er ja: $ RSE $ repræsenterer den gennemsnitlige afstand for de observerede data fra modellen. Intuitivt giver dette også perfekt mening, for hvis afstanden er mindre, er din model også bedre.
Q2:
- Nu bliver jeg forvirret, for hvis RSE fortæller os, hvor langt vores observerede punkter afviger fra regressionslinje en lav RSE fortæller os faktisk “din model passer godt ud fra de observerede datapunkter” -> hvor god vores modeller passer således, så hvad er forskellen mellem R i kvadrat og RSE?
Nu er $ R ^ 2 $ forholdet mellem $ SS_ {model} $ og $ SS_ {total} $ :
# R squared r.sq <- ss.model/ss.total r.sq
$ R ^ 2 $ udtrykker, hvor meget af den samlede variation i dataene, der kan forklares med modellen (regressionen Husk, at den samlede variation var variationen i dataene når vi monterede den enkleste model på dataene, dvs. middelværdien. Sammenlign $ SS_ {total} $ plot med $ SS_ {model} $ plot.
Så for at besvare dit andet spørgsmål er forskellen mellem $ RSE $ og $ R ^ 2 $ er, at $ RSE $ fortæller dig noget om modelens unøjagtighed (i dette tilfælde regressionslinjen) givet de observerede data.
$ R ^ 2 $ på den anden side fortæller dig, hvor meget variation der forklares af modellen (dvs. regressionslinjen) i forhold til den variation, der blev forklaret med betyder alene (dvs. den enkleste model).
Q3:
- Er det sandt, at vi kan have en F-værdi, der indikerer et stærkt forhold, der er IKKE LINJÆR, så vores RSE er høj og vores R-kvadrat er lav
Så t han $ F $ -værdi på den anden beregnes som modelgennemsnit kvadrat $ MS_ {model} $ (eller signalet) divideret med $ MS_ {residual} $ (noise):
# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F
Eller med andre ord $ F $ -værdi udtrykker, hvor meget af modellen der er forbedret (sammenlignet med gennemsnittet) i betragtning af modellens unøjagtighed.
Dit tredje spørgsmål er lidt vanskeligt at forstå, men jeg er enig i det tilbud, du har leveret.
Svar
(2 ) Du forstår det korrekt, du har bare svært ved konceptet.
Værdien $ R ^ 2 $ repræsenterer, hvor godt modellen tegner sig for alle data. Det kan kun påtage sig værdier mellem 0 og 1. Det er procentdelen af punktafvigelsen i datasættet, som modellen kan forklare.
RSE er mere en beskrivelse af, hvad afvigelsen fra model de originale data repræsenterer. Så siger $ R ^ 2 $, “modellen gør det godt ved at forklare de præsenterede data.” RSE siger, “når vi blev kortlagt, forventede vi, at dataene skulle være her, men her er det, hvor de faktisk var.” De er meget ens, men bruges til at validere på forskellige måder.
Svar
Bare for at supplere det, Chris svarede ovenfor:
F-statistikken er delingen af modelens gennemsnitlige firkant og det resterende gennemsnitlige firkant. Software som Stata giver efter montering af en regressionsmodel også p-værdien forbundet med F-statistikken. Dette giver dig mulighed for at teste nulhypotesen om, at din models koefficienter er nul. Du kan tænke på den som den “statistiske betydning af modellen som helhed.”
Svar
Som jeg påpeger i dette andet svar , $ F $ , $ RSS $ og $ R ^ 2 $ er alle indbyrdes forbundne. Her er relevant uddrag:
F-statistikken mellem to modeller, nulmodellen (kun intercept) $ m_0 $ og den alternative model $ m_1 $ ( $ m_0 $ er indlejret i $ m_1 $ ) er:
$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ højre)} {\ venstre (\ frac {RSS_1} {n-p_1} \ højre)} = \ venstre (\ frac {RSS_0-RSS_1} {p_1-p_0} \ højre) \ venstre (\ frac {n-p_1} {RSS_1} \ right) $$
$ R ^ 2 $ er derimod defineret som:
$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$
Omarrangering $ F $ vi kan se, at:
$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ højre) = \ venstre (\ frac {RSS_0} {RSS_1} -1 \ højre) \ venstre (\ frac {n-p_1} {p_1-p_0} \ højre) = \ venstre ( \ frac {R ^ 2} {1-R ^ 2} \ højre) \ venstre (\ frac {n-p_1} {p_1-p_0} \ højre) $$