Olen todella hämmentynyt seuraavien termien lineaarisen regressioon liittyvän merkityseron suhteen:

  • F tilasto
  • R-neliö
  • Jäännös vakiovirhe

Löysin tämän verkkotiedon mikä antoi minulle suuren käsityksen lineaarisessa regressiossa esiintyvistä eri termeistä, mutta edellä mainitut termit näyttävät melko paljon (sikäli kuin ymmärrän). Lainaan lukemani ja mikä hämmentää minua:

Jäännösstandardivirhe mittaa lineaarisen regressiosovituksen laatua ……. Jäännösstandardivirhe on keskimääräinen vasteen määrä (dist ) poikkeaa todellisesta regressioviivasta.

1. Tämä on siis todellisuudessa havaittujen arvojen keskimääräinen etäisyys lm-viivasta?

R-neliön tilasto antaa minulle selvitys siitä, kuinka hyvin malli sopii todellisiin tietoihin.

2. Nyt olen hämmentynyt, koska jos RSE kertoo meille, kuinka kaukana havaitut pisteemme eroavat regressioviivasta, matala RSE kertoo meille” mallisi sopii hyvin havaittujen datapisteiden perusteella ”- > kuinka hyvät mallit sopivat, joten mikä on ero R-neliön ja RSE: n välillä?

F-statistiikka on hyvä osoitus siitä, onko ennustajamme ja vastemuuttujiemme välillä suhdetta.

3. Onko totta, että meillä voi olla F-arvo, joka osoittaa vahva suhde, joka ei ole lineaarinen, joten RSE on korkea ja R-neliömme pieni

Kommentit

  • Q 3 -arvo ei osoita epälineaarista suhdetta . Se on suhde, joka osoittaa, onko näiden kahden muuttujan välillä riippuvainen ja riippumaton olennainen (vakio) suhde.
  • Se ei kerro meille suhteen luonnetta – epälineaarinen tai lineaarinen.

Vastaus

Paras tapa ymmärtää näitä termejä on tehdä regressiolaskenta käsin. Kirjoitin kaksi läheistä vastausta ( täällä ja täällä ), mutta ne eivät välttämättä auta täysin ymmärrät tapauksesi. Mutta lue ne kuitenkin läpi. Ehkä ne auttavat sinua myös käsittelemään näitä termejä paremmin.

Regressiossa (tai ANOVA: ssa) rakennamme mallin, joka perustuu näytetiedostoon, jonka avulla voimme ennustaa tuloksia kiinnostavasta populaatiosta. Tätä varten seuraavat kolme komponenttia lasketaan yksinkertaisella lineaarisella regressiolla, josta muut komponentit voidaan laskea, esim. keskimääräiset neliöt, F-arvo, $ R ^ 2 $ (myös säädetty $ R ^ 2 $ ) ja jäännösstandardivirhe ( $ RSE $ ):

  1. neliösummat yhteensä ( $ SS_ {total} $ )
  2. jäännösneliösummat ( $ SS_ {residual} $ )
  3. mallin neliösummat ( $ SS_ {model} $ )

Jokainen heistä arvioi kuinka hyvin malli kuvaa dataa ja on neliömatkojen summa datapisteistä sopivaan malliin (kuvattu punaisina viivoina alla olevassa käyrässä).

$ SS_ {total} $ arvioi, kuinka hyvin keskiarvo sopii tietoihin. Miksi se tarkoittaa? Koska keskiarvo on yksinkertaisin malli, johon voimme sovittaa, ja toimii siten mallina, johon pienimmän neliösumman regressioviivaa verrataan. Tämä juoni, joka käyttää cars -tietojoukkoa, kuvaa, että:

kirjoita kuvan kuvaus täällä

$ SS_ {residual} $ arvioi, kuinka hyvin regressioviiva sopii dataan.

kirjoita kuvan kuvaus tähän

$ SS_ {model} $ vertaa kuinka paljon parempi regressioviiva on keskiarvoon verrattuna (ts. ero $ SS_ {yhteensä} $ ja $ SS_ {residual} $ ).

kirjoita kuvan kuvaus tähän

vastaamaan kysymyksiisi , lasketaan ensin samat termit, jotka haluat ymmärtää, alkaen mallista ja tuloksesta viitteenä:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

Neliösummat ovat neliöiden etäisyydet yksittäiset tiedot viittaavat malliin:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

Keskimääräiset neliöt ovat neliösummia, jotka on keskitetty vapausasteilla:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Vastaukseni kysymyksiisi:

Q1:

  1. Tämä on siis oikeastaan havaittujen arvojen keskimääräinen etäisyys lm-viivasta?

Jäännösstandardivirhe ( $ RSE $ ) on neliöjuuri jäännöskeskimääräisestä neliöstä ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Jos muistat, että $ SS_ {residual} $ olivat havaittujen datapisteiden ja mallin neliömatkat (regressioviiva yllä olevassa toisessa piirroksessa) ja $ MS_ {residual} $ oli vain keskiarvo $ SS_ {jäljellä} $ , vastaus ensimmäiseen kysymys on kyllä: $ RSE $ edustaa havaittujen tietojen keskimääräistä etäisyyttä mallista. Intuitiivisesti tämä on myös järkevää, koska jos etäisyys on pienempi, myös mallisi istuvuus on parempi.

Q2:

  1. Nyt olen hämmentynyt, koska jos RSE kertoo meille, kuinka kaukana havaitut pisteemme poikkeavat regressioviiva matala RSE kertoo meille ”mallisi sopii hyvin havaittujen datapisteiden perusteella” -> kuinka hyvät mallit sopivat, joten mikä on ero R-neliön ja RSE: n välillä?

Nyt $ R ^ 2 $ on $ SS_ {model} $ ja $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

$ R ^ 2 $ ilmaisee, kuinka suuri osa datan kokonaisvariaatiosta voidaan selittää mallilla (regressio Muista, että kokonaisvaihtelu oli tietojen vaihtelu kun sovitimme dataan yksinkertaisimman mallin, ts. keskiarvon. Vertaa $ SS_ {total} $ -piirrettä $ SS_ {model} $ -piirrokseen.

Joten vastaamaan toiseen kysymykseesi, ero $ RSE $ ja $ R ^ 2 $ on, että $ RSE $ kertoo sinulle mallin (tässä tapauksessa regressioviivan) epätarkkuudesta annettujen tietojen perusteella.

Toisaalta $ R ^ 2 $ kertoo kuinka paljon vaihtelua selittää malli (ts. regressioviiva) suhteessa muunnelmaan, joka selitettiin tarkoita yksin (eli yksinkertaisin malli).

Q3:

  1. Onko totta, että meillä voi olla F-arvo, joka osoittaa vahvan suhteen, joka on EI-LINEAARINEN, niin että RSE on korkea ja R-neliö on matala

Joten t he $ F $ -arvo lasketaan mallin keskimääräisenä neliönä $ MS_ {model} $ (tai signaali) jaettuna $ MS_ {residual} $ (kohina):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

Tai toisin sanoen $ F $ -arvo ilmaisee, kuinka suuri osa mallista on parantunut (keskiarvoon verrattuna) mallin epätarkkuuden vuoksi.

Kolmatta kysymystäsi on vähän vaikea ymmärtää, mutta olen samaa mieltä tarjouksesi kanssa.

Vastaa

(2 ) Ymmärrät sen oikein, sinulla on vain vaikeuksia käsitteen kanssa.

$ R ^ 2 $ -arvo kuvaa, kuinka hyvin malli ottaa huomioon kaikki tiedot. Se voi ottaa arvoja vain välillä 0 ja 1. Se on prosenttiosuus tietojoukon pisteiden poikkeamisesta, jonka malli voi selittää.

RSE on pikemminkin kuvaus siitä, mitä poikkeama mallin alkuperäiset tiedot edustavat. Joten, $ R ^ 2 $ sanoo: ”malli selittää tämän hyvin selittäessään esitettyjä tietoja”. RSE sanoo: ”Kun kartoitettiin, odotimme tietojen olevan täällä, mutta tässä on se, missä se todellisuudessa oli.” Ne ovat hyvin samanlaisia, mutta niitä käytetään validoimaan eri tavoin.

Vastaa

Täydennetään vain sitä, mitä Chris vastasi yllä:

F-tilasto on jako mallin keskimääräinen neliö ja jäännöskeskimääräinen neliö. Stata-tyyppiset ohjelmistot antavat regressiomallin asentamisen jälkeen myös F-tilastoon liittyvän p-arvon. Tämän avulla voit testata nullhypoteesin, jonka mukaan mallisi kertoimet ovat nollia. Voit ajatella sitä ”mallin koko tilastollisena merkitsevyytenä”.

Vastaus

Kuten huomautan tässä toisessa vastauksessa , $ F $ , $ RSS $ ja $ R ^ 2 $ ovat kaikki yhteydessä toisiinsa. Tässä asiaankuuluva ote:

Kahden mallin F-tilasto, null-malli (vain sieppaus) $ m_0 $ ja vaihtoehtoinen malli $ m_1 $ ( $ m_0 $ on sisäkkäin $ m_1 $ ) on:

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ oikea)} {\ vasen (\ frac {RSS_1} {n-p_1} \ oikea)} = \ vasen (\ frac {RSS_0-RSS_1} {p_1-p_0} \ oikea) \ vasen (\ frac {n-p_1} {RSS_1} \ oikea) $$

$ R ^ 2 $ määritellään toisaalta seuraavasti:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

Järjestetään uudelleen $ F $ näemme, että:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ oikea) = \ vasen (\ frac {RSS_0} {RSS_1} -1 \ oikea) \ vasen (\ frac {n-p_1} {p_1-p_0} \ oikea) = \ vasen ( \ frac {R ^ 2} {1-R ^ 2} \ oikea) \ vasen (\ frac {n-p_1} {p_1-p_0} \ oikea) $$

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *