Mit jelent az „X és Y nagyobb eltérés arányt magyarázott Z-ben, mint X önmagában”
Általánosságban mit jelent, ha a modell “több variációt magyaráz meg” a függő változóban – ez természetesen nem egyenértékű azzal, hogy “ez jobban megmagyarázza a változót”?
Köszönjük, hogy betekintést engedett az alapba kérdés.
Megjegyzések
- ” A variancia magyarázata ” ugyanolyan homályos, mint ” egy ” változó magyarázata nekem, ezért nem szeretnék ‘ t kizárják annak lehetőségét, hogy ‘ újra (szemantikailag) kapcsolatban álljanak egymással. Nem szeretem az ANOVA / regressziós kimenet ilyen értelmezését, mert ‘ félrevezető és ” haszontalan ” információk. Tegyük fel, hogy azt mondtam, hogy ” a testmozgás megmagyarázza a vérnyomás szórását ” .. ez azt jelenti, hogy ha tornáztatom, a vérnyomásom kevésbé változik? Valójában az a vérnyomásom több változóvá válik, mivel a rohamok megnövelik a vérnyomásomat, és a nyugalmi nyomásom normotenzivé válik, ami kívánatos. Vannak jobb módszerek az eredmények leírására.
- Az általánosított-lineáris modell (glm) címkét többszörös regresszióval helyettesítettem. Elképzelhető, hogy a kérdést inkább glms-re lehetne általánosítani, inkább eltérésekre és négyzetösszegekre való eltérésekkel, de ez nem tűnik az OP ‘ szándékának.
Válasz
Pár szóban (minél rövidebb, annál jobb!), ha változót ad hozzá egy modellhez, ha a hozzáadott változó hozzáad némi magyarázóerő, akkor az összeadás növeli a modell illeszkedését (azaz a modell egészének képességét a függő változó előrejelzéséhez a mintában, ahol a modellt becsülik). Ne feledje azonban, hogy több változó hozzáadása a túlillesztés nagyobb kockázatával jár (azaz olyan modell felépítése, amelynek a mintán belüli illesztése magas, és amelyre becsülték, és más mintáknál alacsonyabb a jóslási teljesítmény). Így idővel néhány specifikációs kritériumot vezettek be, amelyek kiegyensúlyozzák a megbecsülendő paraméterek számát a modell illeszkedésével, így a változók (és ezért a megbecsülendő paraméterek) hozzáadása elbátortalanodhat, ha a mód illeszkedésének ebből következő növekedése nem elég magas a paraméteres büntetéshez képest.
Ami a “Általánosságban elmondható, hogy mit jelent, ha a modell” nagyobb variációt magyaráz “a függő változóban – ez természetesen nem egyenértékű a kérdésével “ez magyarázza a” több? “változót az olyan alapmodellekben, mint a regresszió, minél nagyobb a függő változó varianciájának magyarázata a modellel, annál kevésbé magyarázható maradványokkal, annál jobb a modell, mert (a szavaival élve) „jobban megmagyarázza a függő változót”
Válasz
Gondolkodnunk kell egy modellen a kérdés megválaszolásához, tehát vegyünk fel egy lineáris modellt. A kényelem érdekében ” használja a négyzetes eltérések összegét variancia helyett; a variancia fordításához osszuk el a négyzetek összegét $ N – 1 $ értékkel.
Engedje meg, hogy $ Z = (z_1, …, z_N) $ legyen az adatai; négyzetes eltérések összege $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Ha úgy dönt, hogy a $ Z $ értéket $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , akkor becsléseket kap $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ a $ Z $ számára; az átlaga megegyezik a $ Z $ “átlagával.
Tény, hogy a $ \ hat {Z} $ kevesebb, mint a $ Z $ , intuitív módon, mert arra kényszerítettük, hogy egy vonalon legyen. a variancia csak akkor azonos, ha az adatok pontosan lineárisak; ezért az az elképzelés, hogy ha megpróbálja megragadni a $ Z $ értéket ezzel a becsléssel, akkor megpróbálja megragadni a a $ Z $ változata . Tehát annál nagyobb a variancia $ \ hat {Z} $ rögzíti, annál közelebb vannak az adatok ahhoz, hogy pontosan lineárisak legyenek.
A következő identitás érvényes (az úgynevezett ANOVA-bontás):
$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$
Tehát a $ Z $ négyzetösszege (TSS) feloszlik a megmagyarázott négyzetösszegre (ESS), amely az illesztett adatok (nem normalizált) szórása. . Ez a “megmagyarázott variancia”. A négyzetek maradványösszege (RSS) az, hogy a valós adatok mennyiben térnek el a beépített adatoktól – a “megmagyarázhatatlan varianciától”. A megmagyarázott vagy megmagyarázhatatlan variancia arányának megszerzéséhez feloszthatja a TSS-szel. A megmagyarázott variancia, $ ESS / TSS $ arányát $ R ^ 2 $ értéknek és mértékének nevezzük. az illeszkedés minősége.
A megmagyarázott / megmagyarázhatatlan variancia nyelve nem mindig hasznos; igazából csak lineáris regresszióval és PCA-val látom. A lehető legnagyobb variancia megmagyarázása sem a legjobb ötlet ha előrejelzést akarsz csinálni, mivel ez túlterhelt. Ha valami olyasmit csinál, mint a gerincregresszió, akkor elfogult becslést kap, amely “kevesebb varianciát magyaráz meg” – az adatok $ R ^ 2 $ rosszabb lesz – –de a gerincregresszió oka az, hogy a teszthiba általában jobb lesz.
(Az előrejelzéshez az ANOVA bontásnál fontosabb a torzítás-variancia bontás.)