Sunt foarte confuz cu privire la diferența de semnificație în ceea ce privește contextul de regresie liniară a următorilor termeni:

  • F statistică
  • R pătrat
  • Eroare standard reziduală

Am găsit acest webstie ceea ce mi-a oferit o perspectivă excelentă asupra diferiților termeni implicați în regresia liniară, totuși termenii menționați mai sus arată destul de mult (din câte înțeleg). Voi cita ceea ce am citit și ce m-a confuz:
p>

Eroarea standard reziduală este măsurarea calității unei potriviri de regresie liniară ……. Eroarea standard reziduală este suma medie pe care răspunsul (dist ) se va abate de la adevărata linie de regresie.

1. Aceasta este, de fapt, distanța medie a valorilor observate de la linia lm?

Statistica R-pătrat oferă un me asigurarea cât de bine se potrivește modelul cu datele reale.

2. Acum mă confund, deoarece dacă RSE ne spune cât de departe deviază punctele noastre observate de linia de regresie, un RSE scăzut ne spune de fapt„ modelul dvs. se potrivește bine pe baza punctelor de date observate ”- > deci cât de bine se potrivește modelele noastre, deci care este diferența dintre R pătrat și RSE?

Statistica F este un bun indicator al faptului dacă există o relație între predictorul nostru și variabilele de răspuns.

3. Este adevărat că putem avea o valoare F care indică o relație puternică care este NON LINEARĂ, astfel încât RSE-ul nostru este ridicat și R-ul nostru este scăzut

Comentarii

  • Q 3 Valoarea nu indică o relație neliniară . Este un raport care indică dacă există o relație de fond (constantă) între cele două variabile – dependente și independente.
  • Nu ne spune natura relației – neliniare sau liniare.

Răspuns

Cel mai bun mod de a înțelege acești termeni este de a face un calcul de regresie manual. Am scris două răspunsuri strâns legate ( aici și aici ), totuși este posibil să nu ajute pe deplin vă înțelegeți cazul particular. Dar citiți-le totuși. Poate că vă vor ajuta să conceptualizați mai bine acești termeni.

Într-o regresie (sau ANOVA), construim un model bazat pe un eșantion de date care ne permite să prezicem rezultatele dintr-o populație de interes. Pentru a face acest lucru, următoarele trei componente sunt calculate într-o regresie liniară simplă din care pot fi calculate celelalte componente, de ex. pătratele medii, valoarea F, $ R ^ 2 $ (de asemenea $ R ^ 2 $ ), și eroarea standard reziduală ( $ RSE $ ):

  1. sume totale de pătrate ( $ SS_ {total} $ )
  2. sume reziduale de pătrate ( $ SS_ {residual} $ )
  3. modelează sume de pătrate ( $ SS_ {model} $ )

Fiecare dintre ele evaluează cât de bine modelul descrie datele și reprezintă suma distanțelor pătrate de la punctele de date la modelul adaptat (ilustrate ca linii roșii în graficul de mai jos).

$ SS_ {total} $ evaluați cât de bine se potrivește media cu datele. De ce rău? Deoarece media este cel mai simplu model pe care îl putem încadra și, prin urmare, servește drept model la care este comparată linia de regresie cu cele mai mici pătrate. Acest grafic care utilizează setul de date cars ilustrează că:

introduceți descrierea imaginii aici

$ SS_ {residual} $ evaluează cât de bine se potrivește linia de regresie cu datele.

introduceți descrierea imaginii aici

$ SS_ {model} $ compară cât de bine este comparată linia de regresie cu media (adică diferența dintre $ SS_ {total} $ și $ SS_ {residual} $ ).

introduceți descrierea imaginii aici

Pentru a vă răspunde la întrebări , să calculăm mai întâi acei termeni pe care doriți să îi înțelegeți începând cu modelul și ieșirea ca referință:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

Sumele pătratelor sunt distanțele pătrate ale datele individuale indică modelul:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

Pătratele medii sunt sumele de pătrate mediate de gradele de libertate:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Răspunsurile mele la întrebările dvs.:

Q1:

  1. Aceasta este de fapt distanța medie a valorilor observate față de linia lm?

eroarea standard reziduală ( $ RSE $ ) este rădăcina pătrată a pătratului mediu rezidual ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Dacă vă amintiți că $ SS_ {residual} $ au fost distanțele pătrate ale punctelor de date observate și modelul (linia de regresie din al doilea grafic de mai sus), iar $ MS_ {residual} $ a fost doar medie $ SS_ {residual} $ , răspunsul la primul dvs. întrebarea este, da: $ RSE $ reprezintă distanța medie a datelor observate de la model. Intuitiv, acest lucru are, de asemenea, un sens perfect, deoarece dacă distanța este mai mică, potrivirea modelului dvs. este, de asemenea, mai bună.

Q2:

  1. Acum mă confund, pentru că dacă RSE ne spune cât de departe deviază punctele noastre observate de la linia de regresie un RSE scăzut ne spune de fapt „modelul dvs. se potrivește bine pe baza punctelor de date observate” -> deci cât de bine se potrivesc modelele noastre, deci care este diferența dintre R pătrat și RSE? >

Acum $ R ^ 2 $ este raportul dintre $ SS_ {model} $ și $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

$ R ^ 2 $ exprimă cât din variația totală din date poate fi explicată prin model (regresia amintiți-vă că variația totală a fost variația datelor când am adaptat cel mai simplu model la date, adică media. Comparați graficul $ SS_ {total} $ cu graficul $ SS_ {model} $ .

Deci, pentru a răspunde la a doua întrebare, diferența dintre $ RSE $ și $ R ^ 2 $ este că $ RSE $ vă spune ceva despre inexactitatea modelului (în acest caz linia de regresie) date de datele observate.

$ R ^ 2 $ pe de altă parte vă arată câtă variație este explicată de model (adică linia de regresie) relativă variația care a fost explicată de înseamnă singur (adică cel mai simplu model).

Q3:

  1. Este adevărat că putem avea o valoare F care indică o relație puternică care este NON LINEALĂ, astfel încât RSE-ul nostru este ridicat și R-ul nostru la pătrat este scăzut

Deci t $ F $ -value, pe de altă parte, se calculează ca pătrat mediu al modelului $ MS_ {model} $ (sau semnalul) împărțit la $ MS_ {residual} $ (zgomot):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

Sau cu alte cuvinte, valoarea $ F $ exprimă cât de mult din model s-a îmbunătățit (comparativ cu media), având în vedere imprecizia modelului.

A treia întrebare este puțin dificil de înțeles, dar sunt de acord cu citatul pe care l-ați furnizat.

Răspuns

(2 ) O înțelegeți corect, pur și simplu aveți probleme cu conceptul.

Valoarea $ R ^ 2 $ reprezintă cât de bine contează modelul pentru toate datele. Poate lua doar valori cuprinse între 0 și 1. Este procentul abaterii punctelor din setul de date pe care modelul îl poate explica.

RSE este mai mult un descriptor a ceea ce deviația de la modelează datele originale. Deci, $ R ^ 2 $ spune că „modelul face acest lucru bine explicând datele prezentate”. RSE spune că „atunci când am fost mapate, ne așteptam ca datele să fie aici, dar aici se afla de fapt”. Sunt foarte asemănătoare, dar sunt utilizate pentru a valida în moduri diferite.

Răspuns

Doar pentru a completa ceea ce Chris a răspuns mai sus:

Statistica F este divizarea modelul pătrat mediu și pătratul mediu rezidual. Software-ul precum Stata, după montarea unui model de regresie, oferă, de asemenea, valoarea p asociată cu statistica F. Acest lucru vă permite să testați ipoteza nulă conform căreia coeficienții modelului dvs. sunt zero. Ați putea crede că este „semnificația statistică a modelului în ansamblu.” >

După cum subliniez în acest alt răspuns , $ F $ , $ RSS $ și $ R ^ 2 $ sunt toate corelate. Aici este extras relevant:

Statistica F dintre două modele, modelul nul (numai interceptare) $ m_0 $ și modelul alternativ $ m_1 $ ( $ m_0 $ este imbricat în $ m_1 $ ) este:

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$

$ R ^ 2 $ pe de altă parte, este definit ca:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

Rearanjare $ F $ putem vedea că:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ left ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *