Co to znamená výrokem „X a Y vysvětlily větší podíl odchylek v samotném Z než X“
Obecněji, co to znamená, když model „vysvětluje více variací“ v závislé proměnné – rozhodně to není ekvivalentní výrazu „toto vysvětluje proměnnou“?
Děkujeme za pochopení této základní otázka.
Komentáře
- " Vysvětlení odchylek " je stejně vágní jako " vysvětlující mi proměnnou ", takže bych ' Nevylučuje možnost, že ' souvisí (sémanticky). Nechci tento způsob interpretace výstupu ANOVA / regrese upřednostňovat, protože je ' zavádějící a " nepoužitelný " informace. Předpokládejme, že jsem řekl " cvičení vysvětlující odchylku krevního tlaku " .. znamená to, že když budu cvičit, bude můj krevní tlak méně variabilní? Ve skutečnosti se můj BP stává více proměnlivým, protože záchvaty zvyšují můj BP a můj klidový tlak bude mít tendenci normotenzně, což je žádoucí. Existují lepší způsoby, jak popsat výsledky.
- Značku generalizovaného lineárního modelu (glm) jsem nahradil vícenásobnou regresí. Tuto otázku lze teoreticky zobecnit na glms odkazem na odchylky, spíše odchylky a součty čtverců, ale to se nejeví jako záměr OP ' s.
Odpověď
Pár slov (čím kratší, tím lepší!), když přidáte proměnnou do modelu, pokud přidaná proměnná přidá nějakou vysvětlující sílu, pak sčítání zvyšuje přizpůsobení modelu (tj. kapacita modelu jako celku předpovídat závislou proměnnou ve vzorku, kde se model odhaduje). Mějte však na paměti, že přidání více proměnných s sebou nese také vyšší riziko nadměrného vybavení (tj. Vytvoření modelu s vysokou shodou se vzorkem, ve kterém se odhaduje, a sníženým výkonem predikce při použití na jiných vzorcích). Postupem času tedy byla zavedena některá specifikační kritéria, která vyvažují počet parametrů, které mají být odhadnuty, proti přizpůsobení modelu, takže od přidávání proměnných (a tedy i odhadovaných parametrů) může být odrazeno, když výsledné zvýšení přizpůsobení režimu není dostatečně vysoká ve srovnání s penalizací parametru.
S ohledem na vaši otázku „Obecněji, co to znamená, když model„ vysvětluje více variací “v závislé proměnné – rozhodně to není ekvivalentní „to vysvětluje proměnnou„ více? “ v základních modelech, jako je regrese, čím více je varianta závislé proměnné vysvětlena modelem, čím méně je vysvětlena zbytky, tím lepší je model, protože (abych použil vaše slova) „více vysvětluje závislou proměnnou“
Odpověď
Abychom mohli odpovědět na vaši otázku, musíme přemýšlet o modelu, takže předpokládejme lineární model. Pro větší pohodlí místo odchylek použijte součty čtverců odchylek; Chcete-li přeložit odchylky, rozdělte součty čtverců o $ N – 1 $ .
Nechte $ Z = (z_1, …, z_N) $ jsou vaše data; má součet čtverců odchylek $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Pokud se rozhodnete odhadnout $ Z $ jako $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , poté získáte odhady $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ pro $ Z $ ; jeho průměr je stejný jako průměr $ Z $ .
Je pravda, že ukázková varianta $ \ hat {Z} $ je menší než u $ Z $ , intuitivně, protože jsme jej omezili tak, aby byl na řádku. Jejich odchylka je stejná, pouze pokud jsou data přesně lineární; proto se předpokládá, že pokusem o zachycení $ Z $ s tímto odhadem se pokusíte zachytit variace z $ Z $ . Čím více variant $ \ hat {Z} $ zachycuje, čím blíže jsou data přesně lineární.
Následující identita obsahuje (nazývá se rozklad ANOVA):
$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$
Takže celkový součet čtverců (TSS) $ Z $ se rozpadá na vysvětlený součet čtverců (ESS), což je (nenormalizovaná) varianta přizpůsobených dat . Toto je „vysvětlená odchylka“. Zbytkový součet čtverců (RSS) je, o kolik se skutečná data stále liší od vašich přizpůsobených dat – „nevysvětlitelná odchylka“. Chcete-li získat část vysvětlené nebo nevysvětlené odchylky, můžete ji rozdělit pomocí TSS. Podíl vysvětleného rozptylu, $ ESS / TSS $ se nazývá $ R ^ 2 $ hodnota a míry kvalita přizpůsobení.
Jazyk vysvětleného / nevysvětleného rozptylu není vždy užitečný; vidím ho pouze s lineární regresí a PCA. Vysvětlení co největšího rozptylu také není nejlepší nápad pokud chcete udělat předpověď, protože to je nadměrné. Když uděláte něco jako hřebenovou regresi, dostanete zkreslený odhad, který by „vysvětlil menší rozptyl“ — $ R ^ 2 $ u dat bude horší- – ale důvodem je hřebenová regrese, protože chyba testu bude obvykle lepší.
(Pro predikci je důležitější než rozklad ANOVA rozklad zkreslení.)