Mitä se tarkoittaa lauseella ”X ja Y selittivät suuremman varianssin osuuden Z: ssä kuin pelkästään X”

Mitä yleisemmin sanotaan, kun malli ”selittää enemmän vaihtelua” riippuvassa muuttujassa – tämä ei todellakaan vastaa ”tämä selittää muuttujaa” enemmän?

Kiitos tämän perusasetuksen käytöstä kysymys.

Kommentit

  • " Varianssin selittäminen " on yhtä epämääräinen kuin ", joka selittää muuttujan " minulle, joten en halua ' t sulje pois mahdollisuus, että he ' liittyvät (semanttisesti) toisiinsa. En pidä tätä tapaa tulkita ANOVA- / regressiolähtöä, koska se ' on harhaanjohtavaa ja " hyödytöntä " tietoja. Oletetaan, että sanoin, että " liikunta selittää verenpaineen vaihtelun " .. Tarkoittaako tämä, että kun liikun, verenpaineeni muuttuu vähemmän? Itse asiassa minun verenpaineesta tulee enemmän muuttuvaa, koska jaksot lisäävät verenpainettani ja lepopaineeni pyrkii normotensiiviseen, mikä on toivottavaa. On parempia tapoja kuvata tuloksia.
  • Olen korvannut yleisen lineaarisen mallin (glm) tunnisteen moniregressiolla. Kysymys voitaisiin ajatella yleisesti glms: ksi viittaamalla pikemminkin variansseihin ja neliösummoihin, mutta se ei näytä olevan OP ' -tarkoitus.

Vastaa

Muutamalla sanalla (mitä lyhyempi, sitä parempi!), kun lisäät muuttujan malliin, jos lisätty muuttuja lisää jonkin verran selittävää voimaa, lisäys lisää mallin sopivuutta (ts. mallin kapasiteettia kokonaisuutena ennustaa riippuvainen muuttuja näytteessä, jossa malli arvioidaan). Muista kuitenkin, että useampien muuttujien lisääminen aiheuttaa myös suuremman yliasennuksen riskin (ts. Mallin rakentaminen, joka sopii hyvin näytteeseen, jonka yli se arvioidaan, ja heikentynyt ennustesuorituskyky, kun sitä käytetään muissa näytteissä). Joten ajan mittaan on otettu käyttöön joitain spesifikaatiokriteerejä siten, että ne tasapainottavat arvioitavien parametrien lukumäärän mallin sopivuuteen, jotta muuttujien (ja siten arvioitavien parametrien) lisäämistä voidaan ehkäistä, kun tuloksena oleva tilamäärityksen kasvu ei ole tarpeeksi korkea verrattuna parametrirangaistukseen.

Kysymyksessäsi ”Mitä yleisemmin sanotaan, kun malli” selittää enemmän vaihtelua ”riippuvassa muuttujassa – tämä ei todellakaan vastaa ”tämä selittää muuttujan” enemmän? ” perusmalleissa, kuten regressiossa, mitä enemmän riippuvan muuttujan varianssi selitetään mallilla, sitä vähemmän selitetään jäännöksillä, sitä parempi malli on, koska (sanojen käyttämiseksi) ”se selittää riippuvaisen muuttujan enemmän”

vastaus

Meidän on ajateltava mallia vastaamaan kysymykseesi, joten oletetaan lineaarinen malli. Mukavuuden vuoksi ” käytä neliöiden poikkeamien summia varianssien sijasta; kääntääksesi varianssit jakamalla neliösummat $ N – 1 $ : lla.

Anna $ Z = (z_1, …, z_N) $ olla tietosi; sen neliöpoikkeamien summa on $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Jos päätät arvioida $ Z $ arvoksi $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , saat arviot $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ kohteelle $ Z $ ; sen keskiarvo on sama kuin $ Z $ ”keskiarvo.

On tosiasia, että $ \ hat {Z} $ on pienempi kuin $ Z $ , intuitiivisesti, koska olemme rajoittaneet sen olevan linjalla. Heidän varianssi on vain sama, jos tiedot ovat täsmälleen lineaarisia; siksi ajatus on, että yrittämällä kaapata $ Z $ tällä arviolla yrität kaapata variation $ Z $ . Joten mitä enemmän varianssia $ \ hat {Z} $ kuvaa, sitä lähempänä data on tarkalleen lineaarista.

Seuraava identiteetti pätee (kutsutaan ANOVA-hajotukseksi):

$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$

Joten $ Z $ -neliöiden neliösumma (TSS) hajoaa selitetyksi neliösummaksi (ESS), joka on sovitettujen tietojen (normalisoimaton) varianssi. . Tämä on ”selitetty varianssi”. Ruutujen jäännössumma (RSS) on, kuinka paljon todelliset tiedot eroavat edelleen sovitetuista tiedoista – ”selittämättömästä varianssista”. Saadaksesi osan selitetystä tai selittämättömästä varianssista, voit jakaa joko TSS: llä. Selitetyn varianssin, $ ESS / TSS $ osuutta kutsutaan $ R ^ 2 $ -arvoksi ja -mittaiseksi istuvuuden laatu.

Selitetyn / selittämättömän varianssin kieli ei ole aina hyödyllinen; näen sen oikeastaan vain lineaarisella regressiolla ja PCA: lla. Myös mahdollisimman suuren varianssin selittäminen ei ole paras idea jos haluat tehdä ennustamisen, koska tämä on liian sopivaa. Kun teet jotain harjanteen regressiota, saat puolueellisen arvion, joka ”selittää vähemmän varianssia” — tietojen $ R ^ 2 $ on huonompi – –mutta harjanne regressio johtuu siitä, että testivirhe on yleensä parempi.

(Ennustamista varten tärkeämpi kuin ANOVA-hajoaminen on bias-varianssi-hajoaminen.)

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *