Wat wordt er bedoeld met de uitspraak “X en Y verklaarden een groter deel van de variantie in Z dan alleen in X”
Meer in het algemeen, wat wordt er bedoeld als het model “meer variatie verklaart” in de afhankelijke variabele – dit is zeker niet gelijk aan “dit verklaart de variabele” meer?
Bedankt voor het inzicht in deze basisvariabele vraag.
Reacties
- ” Variantie uitleggen ” is net zo vaag als ” waarin een variabele ” voor mij wordt uitgelegd, dus ik zou ‘ sluit de mogelijkheid uit dat ze ‘ opnieuw (semantisch) gerelateerd zijn. Ik geef niet de voorkeur aan deze manier om ANOVA / regressie-uitvoer te interpreteren omdat het ‘ misleidend is en ” onbruikbaar ” informatie. Stel dat ik zei ” oefening verklaart variantie in bloeddruk ” .. betekent dat dat als ik oefen, mijn bloeddruk minder variabel wordt? In feite wordt mijn BP meer variabel, aangezien periodes mijn BP verhogen en mijn rustdruk normotensief zal worden, wat wenselijk is. Er zijn betere manieren om resultaten te beschrijven.
- Ik heb de tag generalized-linear-model (glm) vervangen door multiple-regressie. De vraag zou denkbaar kunnen worden gegeneraliseerd naar glms door te verwijzen naar afwijkingen in plaats van varianties en sommen van kwadraten, maar dat lijkt niet de bedoeling van OP ‘ te zijn.
Antwoord
In een paar woorden (hoe korter hoe beter!) als je een variabele aan een model toevoegt, als de toegevoegde variabele toevoegt enige verklarende kracht, dan vergroot de toevoeging de modelpassing (dwz de capaciteit van het model als geheel om de afhankelijke variabele te voorspellen in de steekproef waarin het model wordt geschat). Houd er echter rekening mee dat het toevoegen van meer variabelen ook een hoger risico op overfitting met zich meebrengt (d.w.z. het bouwen van een model met een hoge fit binnen de steekproef waarin het wordt geschat en een verminderde voorspellingsprestatie bij gebruik op andere steekproeven). Dus in de loop van de tijd zijn er een aantal specificatiecriteria geïntroduceerd, zodat ze het aantal te schatten parameters afzetten tegen de modelaanpassing, zodat de toevoeging van variabelen (en dus te schatten parameters) kan worden ontmoedigd wanneer de resulterende toename van de modusaanpassing is niet hoog genoeg in vergelijking met de parameter strafbaarheid.
Met betrekking tot uw vraag “Meer in het algemeen, wat wordt er bedoeld als het model” meer variatie verklaart “in de afhankelijke variabele – dit is zeker niet gelijk aan “dit verklaart de variabele” meer? ” in basismodellen zoals regressie, hoe meer variantie van de afhankelijke variabele wordt verklaard door het model, hoe minder wordt verklaard door residuen, hoe beter het model is omdat (om je woorden te gebruiken) “het verklaart de afhankelijke variabele meer”
Antwoord
We moeten nadenken over een model om uw vraag te beantwoorden, dus laten we uitgaan van een lineair model. Gemakshalve zullen we gebruik sommen van kwadratische afwijkingen in plaats van varianties; om varianties te vertalen, deelt u door de som van de kwadraten door $ N – 1 $ .
Laat $ Z = (z_1, …, z_N) $ zijn uw gegevens; het heeft de som van de kwadratische afwijkingen $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Als u besluit $ Z $ te schatten als $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , dan verkrijgt u schattingen $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ voor $ Z $ ; het gemiddelde is hetzelfde als het gemiddelde van $ Z $ “.
Het is een feit dat de steekproefvariantie van $ \ hat {Z} $ is kleiner dan dat van $ Z $ , intuïtief omdat we het hebben beperkt tot een lijn. Hun variantie is alleen hetzelfde als de gegevens exact lineair zijn; daarom is het de bedoeling dat door te proberen $ Z $ met deze schatting te vangen, u probeert de variatie van $ Z $ . Dus hoe meer variantie $ \ hat {Z} $ vastlegt, hoe dichter de gegevens bij exact lineair zijn.
De volgende identiteit geldt (de ANOVA-decompositie genoemd):
$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$
Dus de totale som van kwadraten (TSS) van $ Z $ wordt opgesplitst in de verklaarde som van kwadraten (ESS), wat de (niet genormaliseerde) variantie is van de aangepaste gegevens . Dit is de “verklaarde variantie”. De residuale som van kwadraten (RSS) is hoeveel de echte gegevens nog steeds verschillen van uw aangepaste gegevens — de “onverklaarde variantie”. Om een deel van de verklaarde of onverklaarde variantie te krijgen, kunt u ofwel delen door TSS. Het aandeel van de verklaarde variantie, $ ESS / TSS $ wordt de $ R ^ 2 $ waarde en meetwaarden genoemd de kwaliteit van de fit.
De taal van de verklaarde / onverklaarde variantie is niet altijd nuttig; ik zie het eigenlijk alleen met lineaire regressie en PCA. Ook is het niet het beste idee om zoveel mogelijk variantie uit te leggen als je voorspelling wilt doen, aangezien dit overfitting is. Wanneer u zoiets als nokregressie doet, krijgt u een vertekende schatting die “minder variantie verklaart” — de $ R ^ 2 $ op de gegevens zal erger zijn- – maar de reden dat u nokregressie uitvoert, is omdat de testfout meestal beter zal zijn.
(Voor voorspelling, belangrijker dan de ANOVA-ontleding is de bias-variantie-ontleding.)