Sono davvero confuso riguardo alla differenza di significato riguardo al contesto della regressione lineare dei seguenti termini:
- F statistica
- R quadrato
- Errore standard residuo
Ho trovato questo webstie che mi ha dato una grande comprensione dei diversi termini coinvolti nella regressione lineare, tuttavia i termini sopra menzionati sembrano abbastanza (per quanto ho capito). Citerò ciò che ho letto e ciò che mi ha confuso:
Lerrore standard residuo è la misura della qualità di un adattamento di regressione lineare ……. Lerrore standard residuo è limporto medio della risposta (dist ) devierà dalla vera linea di regressione.
1. Questa è quindi effettivamente la distanza media dei valori osservati dalla linea lm?
La statistica R quadrato fornisce un me accertarsi del modo in cui il modello si adatta ai dati effettivi.
2. Ora mi sto confondendo perché se RSE ci dice quanto i nostri punti osservati deviano dalla linea di regressione, un RSE basso ci sta effettivamente dicendo” il tuo modello si adatta bene in base ai punti dati osservati “- > quindi quanto sono buoni i nostri modelli, quindi qual è la differenza tra R quadrato e RSE?
La statistica F è un buon indicatore dellesistenza di una relazione tra il nostro predittore e le variabili di risposta.
3. È vero che possiamo avere un valore F che indica un forte relazione NON LINEARE in modo che il nostro RSE sia alto e il nostro R quadrato sia basso
Commenti
- Q 3 Fvalue non indica una relazione non lineare . È un rapporto che indica se esiste una relazione sostanziale (costante) tra le due variabili – dipendente e indipendente.
- Non ci dice la natura della relazione – non lineare o lineare.
Risposta
Il modo migliore per comprendere questi termini è eseguire manualmente un calcolo di regressione. Ho scritto due risposte strettamente correlate ( qui e qui ), tuttavia potrebbero non essere completamente daiuto capisci il tuo caso particolare. Ma leggili comunque. Forse ti aiuteranno anche a concettualizzare meglio questi termini.
In una regressione (o ANOVA), costruiamo un modello basato su un set di dati campione che ci consente di prevedere i risultati di una popolazione di interesse. Per fare ciò, le seguenti tre componenti vengono calcolate in una semplice regressione lineare da cui possono essere calcolate le altre componenti, ad es. i quadrati medi, il valore F, il $ R ^ 2 $ (anche il $ R ^ 2 $ ) e lerrore standard residuo ( $ RSE $ ):
- somme totali di quadrati ( $ SS_ {total} $ )
- somme residue di quadrati ( $ SS_ {residual} $ )
- model somme di quadrati ( $ SS_ {model} $ )
Ciascuno di loro sta valutando quanto bene model descrive i dati e sono la somma delle distanze al quadrato dai punti dati al modello adattato (illustrate come linee rosse nel grafico sotto).
Il $ SS_ {total} $ valuta quanto la media si adatta ai dati. Perché la media? Poiché la media è il modello più semplice che possiamo adattare e quindi serve come modello a cui viene confrontata la retta di regressione dei minimi quadrati. Questo grafico utilizzando il cars
set di dati mostra che:
Il $ SS_ {residual} $ valuta quanto bene la retta di regressione si adatta ai dati.
La $ SS_ {model} $ confronta quanto è migliore la retta di regressione rispetto alla media (ovvero la differenza tra $ SS_ {total} $ e $ SS_ {residual} $ ).
Per rispondere alle tue domande , calcoliamo prima i termini che vuoi capire iniziando con modello e output come riferimento:
# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares
Le somme dei quadrati sono le distanze al quadrato di i dati individuali puntano al modello:
# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model
I quadrati medi sono le somme dei quadrati mediati dai gradi di libertà:
# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model
Le mie risposte alle tue domande:
D1:
- Questo è quindi in realtà la distanza media dei valori osservati dalla linea lm?
L errore standard residuo ( $ RSE $ ) è la radice quadrata del quadrato medio residuo ( $ MS_ {r esidual} $ ):
# Calculate residual standard error res.se <- sqrt(ms.residual) res.se
Se ricordi che $ SS_ {residual} $ erano le distanze al quadrato dei punti dati osservati e il modello (linea di regressione nel secondo grafico sopra), e $ MS_ {residual} $ era solo media $ SS_ {residual} $ , la risposta al tuo primo la domanda è sì: $ RSE $ rappresenta la distanza media dei dati osservati dal modello. Intuitivamente, questo ha anche perfettamente senso perché se la distanza è minore, anche la vestibilità del tuo modello è migliore.
D2:
- Ora mi sto confondendo perché se RSE ci dice di quanto i nostri punti osservati si discostano dal linea di regressione un RSE basso in realtà ci dice “il tuo modello si adatta bene in base ai punti dati osservati” -> quindi quanto bene si adatta il nostro modello, quindi qual è la differenza tra R quadrato e RSE?
Ora $ R ^ 2 $ è il rapporto del $ SS_ {model} $ e $ SS_ {total} $ :
# R squared r.sq <- ss.model/ss.total r.sq
Il $ R ^ 2 $ esprime quanta parte della variazione totale nei dati può essere spiegata dal modello (la regressione linea) Ricorda che la variazione totale era la variazione dei dati quando abbiamo adattato il modello più semplice ai dati, cioè la media. Confronta il grafico $ SS_ {total} $ con il grafico $ SS_ {model} $ .
Quindi, per rispondere alla tua seconda domanda, la differenza tra $ RSE $ e $ R ^ 2 $ è che $ RSE $ ti dice qualcosa sullinesattezza del modello (in questo caso la linea di regressione) dati i dati osservati.
Il $ R ^ 2 $ daltro canto ti dice quanta variazione è spiegata dal modello (cioè la linea di regressione) relativa alla variazione spiegata dal significa da solo (cioè il modello più semplice).
D3:
- È vero che possiamo avere un valore F che indica una relazione forte NON LINEARE in modo che il nostro RSE sia alto e il nostro R quadrato sia basso
Quindi t Il valore $ F $ dallaltro è calcolato come il quadrato della media del modello $ MS_ {model} $ (o il segnale) diviso per $ MS_ {residual} $ (rumore):
# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F
O in altre parole il valore $ F $ esprime quanto il modello è migliorato (rispetto alla media) data linesattezza del modello.
La tua terza domanda è un po difficile da capire ma sono daccordo con la citazione che hai fornito.
Risposta
(2 ) Lo stai capendo correttamente, stai solo attraversando un periodo difficile con il concetto.
Il valore $ R ^ 2 $ rappresenta il modo in cui il modello tiene conto di tutti i dati. Può assumere solo valori compresi tra 0 e 1. È la percentuale della deviazione dei punti nel set di dati che il modello può spiegare.
LRSE è più un descrittore di ciò che la deviazione dal modello rappresentato dai dati originali. Quindi, $ R ^ 2 $ dice, “il modello lo fa bene nello spiegare i dati presentati”. LRSE dice: “quando mappato, ci aspettavamo che i dati fossero qui, ma qui è dove erano effettivamente”. Sono molto simili ma vengono utilizzati per convalidare in modi diversi.
Risposta
Giusto per completare la risposta di Chris sopra:
La statistica F è la divisione di il quadrato medio del modello e il quadrato medio residuo. Software come Stata, dopo aver adattato un modello di regressione, forniscono anche il valore p associato alla statistica F. Ciò ti consente di verificare lipotesi nulla che i coefficienti del tuo modello siano zero. Potresti considerarla come la “significatività statistica del modello nel suo insieme”.
Risposta
Come ho sottolineato in questaltra risposta , $ F $ , $ RSS $ e $ R ^ 2 $ sono tutti correlati. Ecco il estratto pertinente:
La statistica F tra due modelli, il modello nullo (solo intercettazione) $ m_0 $ e il modello alternativo $ m_1 $ ( $ m_0 $ è nidificato in $ m_1 $ ) è:
$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$
$ R ^ 2 $ daltra parte, è definito come:
$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$
Riorganizzare $ F $ possiamo vedere che:
$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ left ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$