Ik “ben echt in de war over het verschil in betekenis met betrekking tot de context van lineaire regressie van de volgende termen:

  • F statistiek
  • R-kwadraat
  • Resterende standaardfout

Ik vond deze website wat me veel inzicht gaf in de verschillende termen die betrokken zijn bij lineaire regressie, maar de termen die hierboven worden genoemd lijken nogal veel (voor zover ik het begrijp). Ik zal citeren wat ik heb gelezen en wat me in de war bracht:

Resterende standaardfout is een maatstaf voor de kwaliteit van een lineaire regressiepassing ……. De residuele standaardfout is het gemiddelde bedrag dat de respons (dist ) zal afwijken van de echte regressielijn.

1. Dit is dus eigenlijk de gemiddelde afstand van de waargenomen waarden tot de lm-lijn?

De R-kwadraatstatistiek geeft een indicatie om te zien hoe goed het model de feitelijke gegevens aanpast.

2. Nu raak ik in de war, want als RSE ons vertelt hoe ver onze waargenomen punten afwijken van de regressielijn, zegt een lage RSE ons eigenlijk” uw model past goed op basis van de waargenomen gegevenspunten “- > hoe goed passen onze modellen dus, dus wat is het verschil tussen R kwadraat en RSE?

F-statistiek is een goede indicator of er een verband is tussen onze voorspeller en de responsvariabelen.

3. Is het waar dat we een F-waarde kunnen hebben die een sterke relatie die NIET LINEAIR is, zodat onze RSE hoog is en onze R-kwadraat laag is

Opmerkingen

  • Q 3 F-waarde geeft geen niet-lineaire relatie aan . Het is een verhouding die aangeeft of er een substantiële (constante) relatie is tussen de twee variabelen – afhankelijk en onafhankelijk.
  • Het vertelt ons niet de aard van de relatie – niet-lineair of lineair.

Answer

De beste manier om deze termen te begrijpen, is door met de hand een regressieberekening uit te voeren. Ik heb twee nauw verwante antwoorden geschreven ( hier en hier ), maar ze helpen mogelijk niet volledig u begrijpt uw specifieke geval. Maar lees ze toch door. Misschien helpen ze je ook om deze termen beter te conceptualiseren.

In een regressie (of ANOVA) bouwen we een model op basis van een voorbeelddataset waarmee we resultaten kunnen voorspellen van een populatie van interesse. Om dit te doen, worden de volgende drie componenten berekend in een eenvoudige lineaire regressie waaruit de andere componenten kunnen worden berekend, b.v. de gemiddelde vierkantjes, de F-waarde, de $ R ^ 2 $ (ook de aangepaste $ R ^ 2 $ ), en de resterende standaardfout ( $ RSE $ ):

  1. totale som van kwadraten ( $ SS_ {total} $ )
  2. restsommen van kwadraten ( $ SS_ {residual} $ )
  3. modelsommen van kwadraten ( $ SS_ {model} $ )

Elk van hen beoordeelt hoe goed de model beschrijft de gegevens en is de som van de gekwadrateerde afstanden van de gegevenspunten tot het passende model (geïllustreerd als rode lijnen in de onderstaande grafiek).

De $ SS_ {total} $ beoordelen hoe goed het gemiddelde bij de gegevens past. Waarom het gemiddelde? Omdat het gemiddelde het eenvoudigste model is dat we kunnen passen en daarom dient als het model waarmee de regressielijn met de kleinste kwadraten wordt vergeleken. Deze plot met de cars dataset illustreert het volgende:

voer een afbeeldingsbeschrijving in hier

De $ SS_ {residual} $ beoordelen hoe goed de regressielijn bij de gegevens past.

voer de beschrijving van de afbeelding hier in

De $ SS_ {model} $ vergelijkt hoeveel beter de regressielijn is vergeleken met het gemiddelde (dwz het verschil tussen de $ SS_ {total} $ en de $ SS_ {residual} $ ).

voer hier een afbeeldingbeschrijving in

Om uw vragen te beantwoorden , laten we eerst de termen berekenen die u wilt begrijpen, beginnend met model en als referentie:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

De sommen van de kwadraten zijn de gekwadrateerde afstanden van de individuele gegevens wijzen naar het model:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

De gemiddelde kwadraten zijn de som van de kwadraten gemiddeld door de vrijheidsgraden:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Mijn antwoorden op uw vragen:

Q1:

  1. Dit is dus eigenlijk de gemiddelde afstand van de waargenomen waarden tot de lm-lijn?

De resterende standaardfout ( $ RSE $ ) is de vierkantswortel van het residueel gemiddelde kwadraat ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Als u zich herinnert dat de $ SS_ {residual} $ waren de gekwadrateerde afstanden van de waargenomen gegevenspunten en het model (regressielijn in de tweede grafiek hierboven), en $ MS_ {residual} $ was gewoon de gemiddeld $ SS_ {residual} $ , het antwoord op uw eerste vraag is ja: de $ RSE $ vertegenwoordigt de gemiddelde afstand van de waargenomen gegevens van het model. Intuïtief is dit ook volkomen logisch, want als de afstand kleiner is, past uw model ook beter.

Q2:

  1. Nu raak ik in de war, want als RSE ons vertelt hoever onze waargenomen punten afwijken van de regressielijn een lage RSE vertelt ons eigenlijk “uw model past goed op basis van de waargenomen gegevenspunten” -> dus hoe goed onze modellen passen, dus wat is het verschil tussen R-kwadraat en RSE?

Nu is de $ R ^ 2 $ de verhouding van de $ SS_ {model} $ en de $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

De $ R ^ 2 $ geeft aan hoeveel van de totale variatie in de gegevens kan worden verklaard door het model (de regressie lijn) Onthoud dat de totale variatie de variatie in de gegevens was toen we het eenvoudigste model aan de gegevens monteerden, d.w.z. het gemiddelde. Vergelijk de plot $ SS_ {total} $ plot met de plot $ SS_ {model} $ plot.

Dus om uw tweede vraag te beantwoorden: het verschil tussen de $ RSE $ en de $ R ^ 2 $ is dat de $ RSE $ iets vertelt over de onnauwkeurigheid van het model (in dit geval de regressielijn) gezien de geobserveerde gegevens.

De $ R ^ 2 $ daarentegen geeft aan hoeveel variatie wordt verklaard door het model (dwz de regressielijn) ten opzichte van de variatie die werd verklaard door de gemiddelde alleen (dwz het eenvoudigste model).

Q3:

  1. Is het waar dat we een F-waarde kunnen hebben die een sterke relatie aangeeft die NIET-LINEAIR is, zodat onze RSE hoog is en onze R-kwadraat laag

So t e $ F $ -waarde anderzijds wordt berekend als het gemiddelde kwadraat van het model $ MS_ {model} $ (of het signaal) gedeeld door de $ MS_ {residual} $ (ruis):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

Of met andere woorden, de $ F $ -waarde geeft aan hoeveel van het model is verbeterd (vergeleken met het gemiddelde) gezien de onnauwkeurigheid van het model.

Uw derde vraag is een beetje moeilijk te begrijpen, maar ik ben het eens met het citaat dat u heeft verstrekt.

Antwoord

(2 ) Je begrijpt het goed, je hebt het gewoon moeilijk met het concept.

De $ R ^ 2 $ -waarde geeft aan hoe goed het model rekening houdt met alle gegevens. Het kan alleen waarden aannemen tussen 0 en 1. Het is het percentage van de afwijking van de punten in de dataset dat het model kan verklaren.

De RSE is meer een descriptor van wat de afwijking van de model dat de originele gegevens vertegenwoordigen. Dus, de $ R ^ 2 $ zegt, “het model doet dit goed bij het uitleggen van de gepresenteerde gegevens.” De RSE zegt: “wanneer we in kaart werden gebracht, verwachtten we dat de gegevens hier zouden zijn, maar hier is waar het werkelijk was.” Ze lijken erg op elkaar, maar worden op verschillende manieren gebruikt om te valideren.

Antwoord

Gewoon om aan te vullen wat Chris hierboven antwoordde:

De F-statistiek is de verdeling van het model gemiddelde kwadraat en het resterende gemiddelde kwadraat. Software zoals Stata levert, na het aanpassen van een regressiemodel, ook de p-waarde die is gekoppeld aan de F-statistiek. Hiermee kunt u de nulhypothese testen dat de coëfficiënten van uw model nul zijn. U kunt het zien als de “statistische significantie van het model als geheel”.

Antwoord

Zoals ik al aangaf in dit andere antwoord , $ F $ , $ RSS $ en $ R ^ 2 $ zijn allemaal met elkaar verbonden. Hier is het relevant fragment:

De F-statistiek tussen twee modellen, het nulmodel (alleen onderscheppen) $ m_0 $ en het alternatieve model $ m_1 $ ( $ m_0 $ is genest in $ m_1 $ ) is:

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$

$ R ^ 2 $ daarentegen wordt gedefinieerd als:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

Herschikken van $ F $ kunnen we zien dat:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ left ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *