Czytałem już, że homoskedastyczność oznacza, że odchylenie standardowe składników błędu jest spójne i nie zależy od wartości x.

Pytanie 1: Czy ktoś może intuicyjnie wyjaśnić, dlaczego jest to konieczne? (Zastosowany przykład byłby świetny!)

Pytanie 2: Nigdy nie pamiętam, czy to jest hetero- czy homo- to jest idealne. Czy ktoś może wyjaśnić logikę, która z nich jest idealna?

Pytanie 3: Heteroskedastyczność oznacza, że x jest skorelowane z błędami. Czy ktoś może wyjaśnić, dlaczego to jest złe?

Wykres * homo- * vs * heteroskedastyczność *

Komentarze

  • Heteroskedastyczność oznacza, że x jest skorelowane z błędami ” – co skłania cię do tego?
  • Wskazówka: homoskedastyczność jest łatwa do opisania: wymaga tylko jednego parametru (dla typowej wariancji). Jak opisałbyś model heteroscedastyczny ?

Odpowiedź

Homoskedastyczność oznacza, że wariancje wszystkich obserwacji są identyczne, heteroskedastyczność oznacza, że są różne. Jest możliwe, że wielkość wariancji wykazuje pewien trend w stosunku do x, ale nie jest to bezwzględnie konieczne; jak pokazano na załączonym diagramie, wariancje o różnej wielkości w sposób losowy z punktu do punktu będą się kwalifikować równie dobrze. Dane homoskedastyczne a dane heteroskedastyczne

Zadaniem regresji jest oszacowanie optymalnej krzywej, która przechodzi tak blisko jak największej liczby punktów danych. W przypadku danych heteroskedastycznych, z definicji niektóre punkty będą naturalnie znacznie bardziej rozproszone niż inne. Jeśli regresja po prostu traktuje wszystkie punkty danych w sposób równoważny, te z największą wariancją będą miały tendencję do wywierania nadmiernego wpływu na wybór optymalnej krzywej regresji, „przeciągając” krzywą regresji do siebie, aby osiągnąć cel minimalizacji ogólne rozproszenie punktów danych dotyczących końcowej krzywej regresji.

Ten problem można łatwo rozwiązać, po prostu ważąc każdy punkt danych w odwrotnej proporcji do jego wariancji. Zakłada się jednak, że zna się wariancję związaną z każdym pojedynczym punktem. Często tak nie jest. Dlatego preferowane są dane homoskedastyczne, ponieważ są one prostsze i łatwiejsze w obsłudze – można uzyskać „poprawną” odpowiedź dla krzywej regresji, niekoniecznie znając podstawowe wariancje poszczególnych punktów , ponieważ względne wagi między punktami w pewnym sensie „znoszą się”, jeśli i tak wszystkie są takie same.

EDYCJA:

Komentator prosi mnie o wyjaśnienie pomysłu, że osoba punkty mogą mieć swoje własne, unikalne, różne wariancje. Robię to za pomocą eksperymentu myślowego. Przypuśćmy, że poproszę cię o zmierzenie masy ciała w stosunku do długości grupy różnych zwierząt, od wielkości komara do rozmiaru słonia. Zrób to, wykreślając długość na osi X i wagę na osi Y. Ale zatrzymajmy się na chwilę, aby rozważyć bardziej szczegółowo. Przyjrzyjmy się konkretnie wartościom wagi – jak właściwie je otrzymałeś? Nie możesz użyć tego samego fizycznego urządzenia pomiarowego do zważenia komara, co zwierzę domowe, ani nie możesz użyć tego samego urządzenia do zważ zwierzę domowe, tak jak słonia. W przypadku komara prawdopodobnie będziesz musiał użyć czegoś takiego jak analitycznej równowagi chemicznej , z dokładnością do 0,0001 g, podczas gdy w przypadku domowego zwierzaka użyj wagi łazienkowej, która może być dokładna do około pół funta (około 200 g), podczas gdy w przypadku słonia możesz użyć czegoś w rodzaju ciężarówki skalę , której dokładność może wynosić tylko +/- 10 kg. Chodzi o to, że wszystkie te urządzenia mają różne nieodłączne dokładności – podają wagę tylko do określonej liczby cyfr znaczących, a po że tak naprawdę nie możesz wiedzieć na pewno. Różne rozmiary słupków błędów na powyższym wykresie heteroskedastycznym, które wiążemy z różnymi wariancjami poszczególnych punktów, odzwierciedlają różne stopnie pewności co do podstawowych pomiarów. Krótko mówiąc, różne punkty mogą mieć różne wariancje, ponieważ czasami nie możemy zmierzyć wszystkich punktów równie dobrze – nigdy nie poznasz wagi słonia do +/- 0,0001 g, ponieważ nie możesz uzyskać taką dokładność jak na wagę samochodową, ale możesz poznać wagę komara z dokładnością +/- 0,0001 g, ponieważ taką dokładność można uzyskać na analitycznej wadze chemicznej.(Technicznie rzecz biorąc, w tym konkretnym eksperymencie myślowym ten sam rodzaj problemu pojawia się również w przypadku pomiaru długości, ale tak naprawdę oznacza to tylko, że gdybyśmy zdecydowali się wykreślić poziome słupki błędu reprezentujące niepewności również w wartościach na osi x, mają różne rozmiary dla różnych punktów.)

Komentarze

  • Byłoby miło, gdybyś wyjaśnił dokładnie, co to jest ” wariancja punktu / obserwacji „. Bez tego czytelnik może czuć się niezadowolony i sprzeciwić się: w jaki sposób pojedyncza obserwacja próbki może mieć własną miarę zmienności?

Odpowiedź

Dlaczego chcemy homoskedastyczności w regresji?

To nie jest że chcemy homoskedastyczności lub heteroskedastyczności w regresji; chcemy, aby model odzwierciedlał rzeczywiste właściwości danych . Modele regresji można sformułować przy założeniu homoskedastyczność, czyli przy założeniu heteroskedastyczności, w jakiejś określonej formie. Chcemy sformułować model regresji, który będzie pasował do rzeczywistych właściwości danych, a tym samym odzwierciedla rozsądną specyfikację zachowania danych pochodzących z obserwowanego procesu.

Zatem, jeśli wariancja odchylenia odpowiedzi od jej oczekiwań (składnika błędu) jest stała (tj. jest homoskedastyczna), to chcemy modelu, który to odzwierciedla. A jeśli t Wariancja odchylenia odpowiedzi od jej oczekiwania (składnika błędu) zależy od zmiennej objaśniającej (tj. jest heteroskedastyczna), to chcemy modelu, który odzwierciedla to . Jeśli błędnie określimy model (np. Używając modelu homoskedastycznego dla danych heteroskedastycznych), oznacza to, że błędnie określimy wariancję składnika błędu. W rezultacie nasze oszacowanie funkcji regresji spowoduje niedostateczną karę za niektóre błędy i nadmierną karę za inne błędy, i będzie miało tendencję do gorszego działania, niż gdybyśmy określili model poprawnie.

Odpowiedź

Oprócz innych doskonałych odpowiedzi:

Czy ktoś może intuicyjnie wyjaśnić, dlaczego jest to konieczne ? (Zastosowany przykład byłby świetny!)

Stała wariancja nie jest „t konieczna , ale kiedy utrzymuje modelowanie i analizę, jest prostsze. Część tego musi być historyczna, analiza, gdy wariancja nie jest stała, jest bardziej skomplikowana, wymaga więcej obliczeń! Tak więc opracowano metody (transformacje), aby dojść do sytuacji, w której zachodzi stała wariancja i można by zastosować prostsze / szybsze metody. istnieje więcej metod alternatywnych, a szybkie obliczenia nie są tak ważne, jak były. Ale prostota wciąż ma wartość! Część ma charakter techniczny / matematyczny. Modele z niestałą wariancją nie mają dokładnych elementów pomocniczych (patrz tutaj ). Zatem możliwe jest tylko wnioskowanie przybliżone. Niestała wariancja w problemie dwóch grup to słynny problem Behrensa-Fishera .

Ale jest jeszcze głębszy. Spójrzmy na najprostszy przykład, porównując średnie z dwóch grup za pomocą (pewnego wariantu) testu t. Hipoteza zerowa zakłada, że grupy są równe. Powiedzmy, że jest to randomizowany eksperyment z grupą leczoną i grupą kontrolną. Jeśli liczebność grup jest rozsądna, randomizacja powinna wyrównać grupy (przed leczeniem). Założenie stałej wariancji mówi, że leczenie (jeśli w ogóle działa) wpływa tylko na średnią, a nie na wariancję. Ale jak to może wpłynąć na wariancję? Jeśli terapia naprawdę działa jednakowo na wszystkich członków grupy leczonej, powinna mieć mniej więcej taki sam efekt dla wszystkich, grupa jest po prostu przesunięta. Tak więc nierówna wariancja może oznaczać, że terapia ma inny wpływ na niektórych członków grupy leczonej niż na innych. Powiedzmy, że jeśli ma to jakiś wpływ na połowę grupy i znacznie silniejszy efekt na drugą połowę, wariancja będzie rosła wraz ze średnią! Zatem założenie stałej wariancji jest w rzeczywistości założeniem dotyczącym jednorodności poszczególnych efektów leczenia . Kiedy tak się nie dzieje, należy spodziewać się, że analiza będzie bardziej zawiła. Zobacz tutaj . Wtedy, przy nierównych rozbieżnościach, interesujące może być również pytanie o przyczyny takiego stanu rzeczy, zwłaszcza jeśli leczenie może mieć z tym coś wspólnego. Jeśli tak, ten post może Cię zainteresować .

Pytanie 2: Mogę nigdy nie pamiętam, czy to „hetero-, czy homo- to jest idealne. Czy ktoś może wyjaśnić logikę, która z nich jest idealna?

Nikt nie jest idealny , musisz modelować sytuację, którą masz! Ale jeśli chodzi o zapamiętanie znaczenia tych dwóch zabawnych słów, po prostu dodaj je jako seks i będziesz pamiętać.

Pytanie 3: Heteroskedastyczność oznacza, że x jest skorelowane z błędami. Czy ktoś może wyjaśnić, dlaczego to jest złe?

Oznacza to, że warunkowy rozkład błędów podanych $ x $ , różni się w zależności od $ x $ . To nie jest złe , po prostu komplikuje życie. Ale może uczynić życie ciekawym, może być sygnałem, że dzieje się coś interesującego.

Odpowiedź

Jednym z założeń regresji OLS jest:

Wariancja składnika błędu / reszty jest stała. To założenie jest znany jako homoskedastyczność .

To założenie gwarantuje, że wraz ze zmianą obserwacji różnice w składnik błędu nie powinien ulec zmianie

  1. Jeśli ten warunek zostanie naruszony, zwykłe estymatory najmniejszych kwadratów nadal byłyby liniowe, bezstronne i spójne, jednak te estymatory nie byłyby już wydajne .

Ponadto oszacowania błędu standardowego staną się stronnicze i zawodne

w obecności heteroskedastyczności, co prowadzi do problemu z testowaniem hipotez na temat estymatorów .

Podsumowując, przy braku homoskedastyczności mamy liniowe i nieobciążone estymatory, ale nie NIEBIESKIE (najlepsze liniowe nieobciążone estymatory)

[Przeczytaj twierdzenie Gaussa Markowa]

  1. Mam nadzieję, że teraz jest jasne, że idealnie potrzebujemy homoskedastyczności w naszym modelu.

  2. Jeśli składnik błędu jest skorelowany z y lub y przewidywane lub którykolwiek z xi; oznacza to, że nasz predyktor (-y) nie wykonał zadania prawidłowego wyjaśnienia zmienności w „y”.

W jakiś sposób specyfikacja modelu jest nieprawidłowa lub występują inne problemy.

Mam nadzieję, że to pomoże! Wkrótce spróbuję napisać intuicyjny przykład.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *