Co oznacza stwierdzenie „X i Y wyjaśniły większą proporcję wariancji w Z niż w samym X”

Mówiąc bardziej ogólnie, co to znaczy, gdy model „wyjaśnia większą zmienność” zmiennej zależnej – z pewnością nie jest to równoważne z „to wyjaśnia zmienną” więcej?

Dziękuję za wgląd w to podstawowe pytanie.

Komentarze

  • ” Wyjaśnienie wariancji ” jest tak samo niejasne, jak ” wyjaśniające mi zmienną „, więc nie ' nie wykluczają możliwości, że są ' ponownie (semantycznie) powiązane. Nie preferuję tego sposobu interpretowania wyników ANOVA / regresji, ponieważ jest ' mylący i ” bezużyteczny ” informacje. Przypuśćmy, że powiedziałem ” ćwiczenie wyjaśniające zmienność ciśnienia krwi ” .. czy to oznacza, że jeśli ćwiczę, moje ciśnienie krwi będzie mniej zmienne? W rzeczywistości moje ciśnienie krwi staje się bardziej zmienne, ponieważ ataki zwiększają moje ciśnienie i ciśnienie spoczynkowe będzie miało tendencję do normotensji, co jest pożądane. Istnieją lepsze sposoby opisywania wyników.
  • Zastąpiłem znacznik uogólnionego modelu liniowego (glm) regresją wielokrotną. Można sobie wyobrazić, że pytanie można uogólnić na glms przez odniesienie do odchyleń, a raczej wariancji i sum kwadratów, ale nie wydaje się, aby było to intencją OP '.

Odpowiedź

W kilku słowach (im krócej, tym lepiej!), gdy dodajesz zmienną do modelu, jeśli dodana zmienna dodaje pewną moc objaśniającą, to dodanie zwiększa dopasowanie modelu (tj. zdolność modelu jako całości do przewidywania zmiennej zależnej w próbie, w której model jest szacowany). Należy jednak pamiętać, że dodanie większej liczby zmiennych wiąże się również z wyższym ryzykiem nadmiernego dopasowania (tj. Zbudowania modelu o wysokim dopasowaniu w próbie, w której jest on szacowany, oraz pogorszonej wydajności prognozowania, gdy jest stosowany na innych próbkach). Z biegiem czasu wprowadzono więc pewne kryteria specyfikacji, które równoważą liczbę parametrów do oszacowania z dopasowaniem modelu, tak że dodawanie zmiennych (a tym samym parametrów do oszacowania) może być zniechęcone, gdy wynikający z tego wzrost dopasowania modu nie jest wystarczająco wysoka w porównaniu z penalizacją parametru.

W odniesieniu do twojego pytania „Mówiąc bardziej ogólnie, co to znaczy, gdy model„ wyjaśnia większą zmienność ”zmiennej zależnej – z pewnością nie jest to równoważne z „to wyjaśnia zmienną„ więcej? ” w podstawowych modelach, takich jak regresja, im większa wariancja zmiennej zależnej jest wyjaśniona przez model, im mniej jest wyjaśnianych przez reszty, tym lepszy jest model, ponieważ (używając twoich słów) „bardziej wyjaśnia zmienną zależną”

Odpowiedź

Aby odpowiedzieć na Twoje pytanie, musimy pomyśleć o modelu, więc załóżmy model liniowy. Dla wygody zajmiemy się stosować sumy kwadratowych odchyleń zamiast wariancji; aby przetłumaczyć na wariancje, podziel sumy kwadratów przez $ N – 1 $ .

Niech $ Z = (z_1, …, z_N) $ to Twoje dane; ma sumę kwadratów odchyleń $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Jeśli zdecydujesz się oszacować $ Z $ jako $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , a następnie uzyskasz szacunki $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ dla $ Z $ ; jego średnia jest taka sama jak średnia $ Z $ „.

Faktem jest, że przykładowa wariancja $ \ hat {Z} $ jest mniejszy niż $ Z $ , intuicyjnie, ponieważ ograniczyliśmy go do linii. Ich wariancja jest taka sama tylko wtedy, gdy dane są dokładnie liniowe, dlatego idea jest taka, że próbując uchwycić $ Z $ z tym oszacowaniem, próbujesz uchwycić odmiana $ Z $ . Więc im większa wariancja $ \ hat {Z} $ przechwytuje, tym bardziej dane są dokładnie liniowe.

Następujące blokady tożsamości (zwane rozkładem ANOVA):

$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$

Zatem całkowita suma kwadratów (TSS) $ Z $ rozbija się na wyjaśnioną sumę kwadratów (ESS), która jest (nie znormalizowaną) wariancją dopasowanych danych . To jest „wyjaśniona wariancja”. Resztkowa suma kwadratów (RSS) to jak bardzo rzeczywiste dane nadal różnią się od dopasowanych danych – „niewyjaśniona wariancja”. Aby uzyskać proporcję wyjaśnionej lub niewyjaśnionej wariancji, możesz podzielić przez TSS. Proporcja wyjaśnionej wariancji $ ESS / TSS $ jest nazywana wartością i miarami $ R ^ 2 $ jakość dopasowania.

Język wyjaśnionej / niewyjaśnionej wariancji nie zawsze jest przydatny; tak naprawdę widzę go tylko z regresją liniową i PCA. Ponadto wyjaśnienie jak największej wariancji nie jest najlepszym pomysłem jeśli chcesz przewidywać, ponieważ jest to nadmierne dopasowanie. Kiedy robisz coś takiego jak regresja grzbietów, otrzymujesz obciążone oszacowanie, które „wyjaśniałoby mniejszą wariancję” – $ R ^ 2 $ danych będzie gorszy- – ale powodem, dla którego wykonujesz regresję grzbietów, jest to, że błąd testu zwykle będzie lepszy.

(Dla przewidywania ważniejsza od rozkładu ANOVA jest dekompozycja odchylenia-wariancji).

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *