Dlaczego wysoka dodatnia kurtoza jest problematyczna w testach hipotez?

Question

Słyszałem (przepraszam, nie mogę podać linku do tekstu, coś mi powiedziano), że wysoka dodatnia kurtooza reszt może być problematyczna dla dokładności testy hipotez i przedziały ufności (a tym samym problemy z wnioskami statystycznymi). Czy to prawda, a jeśli tak, to dlaczego? Czy wysoka dodatnia kurtooza reszt nie wskazywałaby, że większość reszt znajduje się w pobliżu średniej resztowej równej 0, a zatem jest mniejsza Reszty są obecne? (Jeśli masz odpowiedź, spróbuj udzielić odpowiedzi z niewielką dogłębną matematyką, ponieważ nie jestem zbytnio matematyczny).

Komentarze

Domyślam się, że skupiasz się na modelach z idealnymi warunkami normalnych (gaussowskich) terminów błędów. (W wielu innych kontekstach można by się spodziewać wysokiej kurtozy resztek.) Wysoka kurtooza najprawdopodobniej oznacza dystrybucję grubszą niż normalna, więc niektóre bardzo wysokie (+ lub -) pozostałości. Nawet jeśli jest ich wiele w pobliżu zera, to są to tylko dobre wieści, a ewentualne złe wieści wymagają uwagi. Ale to z kolei może oznaczać dowolną liczbę rzeczy. Wykres rezydualny w porównaniu z dopasowanym jest zwykle bardziej pouczający.
Rzeczywiście, skupiałem się na modelach z założeniami normalności.

Answer 1

usłyszeli […], że wysoka dodatnia kurtooza reszt może być problematyczna dla dokładnych testów hipotez i przedziałów ufności (a tym samym problemy ze statystycznymi wnioskowanie). Czy to prawda, a jeśli tak, to dlaczego?

W przypadku niektórych rodzajów testów hipotez jest to prawda.

Czy wysoka dodatnia kurtooza reszt nie wskazywałaby, że większość reszt jest zbliżona do średniej resztowej równej 0, a zatem obecne są mniejsze reszty?

Nie .

Wygląda na to, że „łączysz pojęcie wariancji z pojęciem kurtozy. Gdyby wariancja była mniejsza, to łączyłaby się tendencja do większej liczby małych reszt i mniej dużych reszt. Wyobraź sobie, że podczas zmiany kurtozy utrzymujemy odchylenie standardowe na stałym poziomie (więc zdecydowanie mówimy o zmianach w kurtoozie, a nie w wariancji).

Porównaj różne wariancje (ale tę samą kurtoozę):

z inną kurtoozą, ale z tą samą wariancją:

(obrazy z ten post )

Wysoka kurtooza jest w wielu przypadkach związana z mniejszymi odchyleniami od średniej $ ^ \ ddagger $ – więcej małych reszt niż można znaleźć w rozkładzie normalnym .. ale aby utrzymać odchylenie standardowe na tej samej wartości, musimy mieć również więcej dużych reszt (ponieważ posiadanie większej liczby małych reszt zmniejszyłoby typową odległość od średniej). Aby uzyskać więcej zarówno dużych, jak i małych reszt, będziesz mieć mniej reszt „typowych” – tych o jedno odchylenie standardowe od średniej.

$ \ ddagger $ to zależy od tego, jak zdefiniujesz „małość”; nie możesz po prostu dodać wielu dużych reszt i zachować stałą wariancji, potrzebujesz czegoś, aby to skompensować – ale dla niektórych podanych miary „małych” możesz znaleźć sposoby na zwiększenie kurtozy bez zwiększania tej konkretnej miary (na przykład wyższa kurtooza nie oznacza automatycznie wyższego piku jako takiego)

Wyższa kurtooza ma tendencję do występowania z większymi resztami, nawet jeśli utrzymujesz stałą wariancji.

[Ponadto, w niektórych przypadkach, koncentracja małych reszt może w rzeczywistości prowadzić do większego problemu niż dodatkowa część największych reszt – w zależności od tego, na co patrzysz.]

W każdym razie spójrzmy na przykład. Rozważmy test t dla jednej próby i wielkość próby 10.

Jeśli odrzucimy hipotezę zerową, gdy wartość bezwzględna statystyki t jest większa niż 2,262, to gdy obserwacje są niezależne, identycznie z rozkładu normalnego, a hipotetyczna średnia jest prawdziwą średnią populacji, odrzucamy hipotezę zerową w 5% przypadków.

Rozważmy konkretny rozkład z znacznie wyższą kurtoozą niż normalna: 75% naszej populacji mają swoje wartości narysowane z rozkładu normalnego, a pozostałe 25% ma swoje wartości narysowane z rozkładu normalnego z odchyleniem standardowym 50 razy większym.

Jeśli obliczyłem poprawnie, odpowiada to kurtoozie 12 (nadmiar kurtozy 9) Wynikowy rozkład jest znacznie bardziej szczytowy niż normalny i ma ciężkie ogony.Gęstość jest porównywana z gęstością normalną poniżej – możesz zobaczyć wyższy szczyt, ale naprawdę nie możesz zobaczyć cięższego ogona na lewym zdjęciu, więc wykreśliłem również logarytm gęstości, który rozciąga dolną część obraz i kompresuje górę, dzięki czemu łatwiej jest zobaczyć zarówno szczyt, jak i ogony.

rzeczywisty poziom istotności dla tego rozkładu, jeśli przeprowadzisz „5%” test t dla jednej próbki z $ n = 10 $ jest poniżej 0,9%. Jest to dość dramatyczne i znacznie obniża krzywą mocy.

(Zobaczysz także istotny wpływ na pokrycie przedziałów ufności.)

Zauważ, że inny rozkład z tą samą kurtoozą będzie miał inny wpływ na poziom istotności.

Dlaczego więc odrzucenie kurs spadł? Dzieje się tak, ponieważ cięższy ogon prowadzi do kilku dużych wartości odstających, co ma nieco większy wpływ na odchylenie standardowe niż na średnią; ma to wpływ na statystykę t, ponieważ prowadzi do większej liczby wartości t między -1 a 1, w procesie zmniejszania proporcji wartości w obszarze krytycznym.

Jeśli weźmiesz próbkę, która wygląda dość spójnie z pochodzeniem z rozkładu normalnego, którego średnia jest wystarczająco daleko powyżej hipotetycznej średniej, znaczące, a następnie bierzesz obserwację najbardziej ponad średnią i odsuwasz ją jeszcze dalej (to znaczy sprawisz, że średnia będzie jeszcze większa niż w $ H_0 $ ), tak naprawdę spraw, by statystyka t była mniejsza .

Pozwól, że ci pokażę. Oto próbka w rozmiarze 10:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23

Wyobraź sobie, że chcemy go przetestować pod kątem $ H_0: \ mu = 2 $ (test t dla jednej próbki). Okazuje się, że średnia próbki wynosi tutaj 2,68, a odchylenie standardowe próbki wynosi 0,9424. Otrzymujesz statystykę t 2,282 – tylko w obszarze odrzucenia dla test 5% (wartość p 0,0484).

Teraz zrób największą wartość 50:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50

Oczywiście wyciągamy średnią w górę, więc powinno wskazywać na różnicę jeszcze bardziej niż wcześniej, prawda? Cóż, nie, nie. Statystyka t spada w dół . Obecnie wynosi 1,106, a wartość p jest dość duża (blisko 30%). Co się stało? Cóż, podciągnęliśmy średnią w górę (do 7,257), ale odchylenie standardowe wzrosło powyżej 15.

Odchylenia standardowe są nieco bardziej wrażliwe na wartości odstające niż średnie – kiedy wstawisz wartość odstającą, masz tendencję do przesuwania statystyki t dla jednej próbki w kierunku 1 lub -1.

Jeśli jest szansa na kilka wartości odstających, dzieje się tak samo, tylko że czasami mogą one znajdować się po przeciwnych stronach (w takim przypadku odchylenie standardowe jest jeszcze bardziej zawyżone, podczas gdy wpływ na średnią jest zmniejszony w porównaniu z jednym wartość odstająca), więc statystyka t ma tendencję do zbliżania się do 0.

Podobna sytuacja ma miejsce w przypadku wielu innych typowych testów, które zakładają normalność – wyższa kurtoza jest zwykle związana z cięższymi ogonami, co oznacza więcej wartości odstających, co oznacza, że odchylenia standardowe są zawyżane w stosunku do średnich, a więc różnice, które chcesz wyłapać, są zwykle „zalewane” przez wpływ wartości odstających w teście. Komentarze

Wow, bardzo dziękuję za bardzo jasną i wyczerpującą odpowiedź. Doceniamy Twój czas!
Warto również zauważyć, że chociaż wielopróbkowy rozkład średniej próby nie zależy od kurtozy (stąd rzeczywisty poziom istotności testów zakładających normalność dla średniej zbieżności ges do poziomu nominalnego, zazwyczaj 0,05, jako n- > nieskończoność, dla wszystkich skończonych kurtozy), to samo nie jest prawdą dla testów na wariancje. Rozkład oszacowanej wariancji w dużej próbie zależy od kurtozy, więc rzeczywisty poziom istotności klasycznych testów wariancji zakładających normalność nie jest zbieżny z poziomem nominalnym n – > nieskończoność, gdy kurtoza jest różna od zera.
Ponadto wyższa kurtooza nie oznacza matematycznie, że istnieje ” więcej małych odchyleń od średniej. ” Jedyną rzeczą, którą na pewno ci to mówi, jest to, że w ogonie jest więcej.
Nie możesz uzyskać więcej dużych odchyleń i utrzymać stałej wariancji chyba że zrobisz więcej małych odchyleń; jeśli ' nie utrzymasz stałej wariancji, więcej odchyleń stanie się małych w stosunku do nowej skali. Więc tak, jeśli chodzi o kurtozę, matematyka mówi, że większe niesie ze sobą mniejsze.
@Peter Niech ' s weźmie $ Z $ jako standaryzowany $ X $. Kurtoza to $ \ kappa = E (Z ^ 4) $, a $ \ sqrt {\ kappa-1} = E (Z ^ 2) $ jest monotoniczne w $ \ kappa $. Jeśli przesunę prawdopodobieństwo dalej w ogon $ Z $, pewne prawdopodobieństwo musi przesunąć się w kierunku średniej (lub mogę ' t trzymać $ \ text {Var} (Z) = 1 $ ).Podobnie, jeśli przeniosę prawdopodobieństwo bardziej na ogon $ X $ &, pozwólmy na wzrost wariancji, $ \ mu \ pm k \ sigma $ będzie szersza, a więc przynajmniej dla niektórych wartości $ k $ więcej reszty dystrybucji będzie miało tendencję do mierzenia się w tych granicach; po ujednoliceniu nowego $ X $ ($ X ' $ na $ Z ' $ powiedz), masz więcej mniejszych wartości w tym bezpośredni sens.

Answer 2

Kurtoza mierzy wartości odstające. Wartości odstające są problematyczne w przypadku standardowych wniosków (np. Testów t, przedziałów t) opartych na rozkładzie normalnym. To koniec historii! I to naprawdę całkiem prosta historia.

Powodem, dla którego ta historia nie jest dobrze doceniana, jest to, że starożytny mit, że kurtozy mierzy „szczyt”, wciąż istnieje.

Oto proste wyjaśnienie pokazujące, dlaczego kurtoza mierzy wartości odstające, a nie „szczytowość”.

Rozważ następujący zestaw danych.

0, 3, 4, 1 , 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1

Kurtoza to oczekiwana wartość (wartości z ) ^ 4. Oto (wartości z) ^ 4:

6,51, 0,30, 5,33, 0,45, 0,00, 0,30, 6,51, 0,00, 0,45, 0,30, 0,00, 6,51, 0,00, 0,00, 0,30, 0,00, 27,90, 0,00, 0,30, 0,45

Średnia wynosi 2,78 i jest to oszacowanie kurtozy. (Odejmij 3, jeśli chcesz nadmiernej kurtozy.)

Teraz zamień ostatnią wartość danych na 999, aby stała się wartością odstającą:

0, 3, 4, 1, 2, 3 , 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Oto (wartości z) ^ 4:

0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98

Średnia wynosi 18,05 i jest to szacunkowa wartość kurtozy. (Odejmij 3, jeśli chcesz nadmiernej kurtozy.)

Oczywiście liczą się tylko wartości odstające. Nic o „szczycie” lub danych w pobliżu środka nie ma znaczenia.

Jeśli wykonujesz standardowe analizy statystyczne z drugim zestawem danych, powinieneś spodziewać się kłopotów. Duża kurtoza ostrzega o problemie.

Oto artykuł, który szczegółowo opisuje:

Westfall, P.H. (2014). Kurtosis as Peakedness, 1905 – 2014. R.I.P. The American Statistician, 68, 191–195.

Komentarze

Dlaczego nie użyć po prostu testów nieparametrycznych? W przypadku tego typu problemów prawdopodobnie będą lepsze.
Zgoda, jest to możliwa droga, JEŚLI lubisz testowanie, które szybko staje się mniej interesujące w swojej klasycznej formie. Ale to naprawdę nie jest moim zmartwieniem. Bardziej interesuje mnie modelowanie probabilistyczne. Jedno zastosowanie: może naprawdę interesuje Cię średnia, np. W przypadkach, gdy zmienną zależną są zarobione dolary, średnia procesu jest bardziej interesująca niż mediana procesu. A więc co dane mówią o procesie, gdy dane są odstające? Jest to ' problem trudny, ale ważny, a kurtoza jest istotna dla odpowiedzi. Testy nie nieparowe.
W przypadku rozkładu Cauchyego średnia obcięta może być lepszą miarą położenia niż mediana, a średnia zwyczajna nie byłaby miarą położenia. To, czego użyć jako miary lokalizacji, zależy od tego, jaka jest dystrybucja. Przykładem, dla którego kurtooza nie byłaby pomocna jako wskaźnik, jest rozkład równomierny, dla którego średnia wartość ekstremalna jest lepszą miarą lokalizacji niż mediana i średnia.
Nie chodzi o to. Jeśli interesują Cię sumy, np. Dolary, to zwykła średnia jest miarą żądanej lokalizacji.
Jeśli masz zmienną o rozkładzie Cauchyego, możesz przedstawić argumentację dla łącznej liczby zarobionych dolarów, ale mean nie będzie szczególnie użyteczną miarą lokalizacji, co oznacza, że ” wartość oczekiwana ” nie wiąże się z żadnymi rozsądnymi oczekiwaniami.

Answer 3

Kurtoza wskazuje również na asymetryczne ogony. W dwustronnym teście hipotezy jeden ogon będzie długim ogonem, a drugi krótkim. Jeden z ogonów może być> alfa, ale < beta. Jeden ogon przekroczyłby wartość p, ale drugi nie.

Zasadniczo wnioskowanie statystyczne zakłada standardową normę. Kiedy nie jest to standardowa norma, możesz sobie poradzić z wnioskiem opartym na bardziej wyrafinowanej mechanice wnioskowania. Możesz być zdolny do wnioskowania Poissona, ale z rozkładem, który nie jest normalny, nie możesz użyć wnioskowania opartego na normalnych.

Pochylenie i kurtozy są miarą nienormalności. Uczymy się brać średnie i używać rozkładów normalnych, zanim dowiemy się, że musimy sprawdzić normalność. Normalna wymaga 36 lub więcej punktów danych z każdego wymiaru. Możesz oszacować na 20 punktach danych, ale nadal będziesz mieć pochylenie i kurtozę. Gdy rozkład zbliża się do normalności, pochylenie i rozkład znikają.

Jedno z wyjaśnień definiuje kurtoozę jako szczyt. Inny nie.W tej chwili jest to nierozstrzygnięta walka. Kurtoza to czwarty moment, obszar. Nie jestem na szczycie tego problemu.

Innym pomysłem jest to, że przy skosie mediana przechyla się do trybu tworzącego trójkąt. Ciesz się.

Komentarze

' nie jest jasne, czy to dodaje coś pożytecznego i innego od już doskonałych odpowiedzi. Dodaje kilka zagadkowych stwierdzeń np. ” normalny wymaga 36 lub więcej punktów danych ” (więc 35 nie jest w porządku? Jaka jest podstawa tego roszczenia? ” skośność jako szczytowość ” Nie ' nie sądzę, żeby ktokolwiek to twierdził. ” wnioskowanie statystyczne zakłada standardowe normalne „: nie w ogóle. Kurtoza to czwarty moment, obszar: nie; kurtooza, jak zdefiniowano tutaj, jest bezwymiarowym stosunkiem opartym na czwarty i drugi moment dotyczący średniej.
Czwarty moment to całka, więc jest to obszar. Jak ten obszar jest przesuwany straciło na mnie spiczastość lub krzywiznę.
Typowym wyjaśnieniem kurtozy jest szczyt, ale moim zdaniem ' jest błędne. ' edytuję moją pierwotną odpowiedź, aby zmienić skośność jako szczyt, aby powiedzieć, że kurtoza to … Dzięki.
Ogony nie są symetryczne. ' nigdy nie widziałem niczego na temat wnioskowania statystycznego uwzględniającego asymetryczne ogony. Ryzyko kurtozy występuje, ponieważ ogony będą się poruszać w miarę gromadzenia większej liczby punktów danych. Pochylenie i kurtoza to brak wystarczających danych do osiągnięcia standardowej normy.
Nie tak: istnieje masa teorii i zastosowań dla rozkładów wykładniczych, gamma, Weibulla i wielu, wielu innych, które nie są normalne .

Dlaczego wysoka dodatnia kurtoza jest problematyczna w testach hipotez?

Komentarze

Odpowiedź

Odpowiedź

Komentarze

Odpowiedź

Komentarze

Dodaj komentarz Anuluj pisanie odpowiedzi