Histogramy dają dobre wyobrażenie o rozkładzie zmiennej. Wykresy pudełkowe próbują zrobić to samo, jednak nie dają zbyt dobrego obrazu rozkładu tej zmiennej.

Nie rozumiem, dlaczego ludzie używają wykresów pudełkowych. Histogramy są lepsze pod każdym względem. Czy jest jakiś powód, dla którego bym użył obu z nich?

Myślę, że jedyne, co dostarczają wykresy pudełkowe, to: wartości odstające! Mówi nam, które obserwacje mogą być wartościami odstającymi.

Komentarze

  • Czy histogram jest gorszy pod każdym względem niż reprezentacja całej dystrybucji?
  • Zależy od tego, czego chcesz, dzięki wykresowi pudełkowemu możesz mieć pewne dokładne wartości (np. mediana, P75), których nie masz w histogramie. Wyświetla mniej informacji, ale jest bardziej syntetyczny. Chodzi mi o to, że nawet histogram jest uproszczeniem i stratą informacji w porównaniu z całą dystrybucją. Ale może być łatwiej w użyciu
  • Odmienny punkt widzenia na temat użyteczności histogramów został przekonywująco wyrażony i dobrze zilustrowany w bardzo pozytywnie ocenianym poście pod adresem stats .stackexchange.com / a / 51753 (można go znaleźć, wyszukując w naszej witrynie ” histogram „).
  • Ciekawa myśl – ale zwiększenie rozmiaru przedziału zmniejszyłoby histogram do postaci podobnej do wykresu pudełkowego, zachowując niefortunną zależność od wyboru punktów odcięcia. IMHO, prawdziwe zalety wykresów pudełkowych można najlepiej docenić, przyglądając się, jak Tukey ' używa podsumowania N-liter do eksploracyjnej analizy danych wielowymiarowych i pamiętając, że obliczał on ołówkiem i papierem wtedy. W przypadku wizualizacji, takich jak ” wędrowny schematyczny ślad „, inne jednowymiarowe podsumowania odpowiedzi warunkowych, takie jak histogramy lub wykresy skrzypiec, po prostu nie zadziałają.
  • Dwie awarie (imo) histogramu występują, gdy jest kilka próbek lub gdy pudełka mają niewłaściwe rozmiary. Wadą dobrego wykresu pudełkowego (a ja ' myślę o zmienności JMP, kiedy to mówię) jest multimodalność i drobne szczegóły. Jedno miejsce, w którym wykres pudełkowy świeci, jest wtedy, gdy jest kilka próbek. Podoba mi się też, gdy na różnych poziomach występuje wiele oddziałujących ze sobą zmiennych – stąd wykres zmienności JMP.

Odpowiedź

Fakt, że wykresy pudełkowe zawierają więcej podsumowania rozkładu, można również postrzegać jako zaletę w niektórych przypadkach. Czasami, gdy porównujemy dystrybucje, nie przejmujemy się ogólnym kształtem, ale raczej tym, gdzie rozkładają się względem siebie. Kreślenie kwantyli obok siebie może być użytecznym sposobem zrobienia tego bez rozpraszania nas innymi szczegółami, które mogą nas nie interesować.

Komentarze

  • To najlepsza odpowiedź. Wykresy pudełkowe są lepsze do porównywania rozkładów niż histogramy!

Odpowiedź

W przypadku jednej zmiennej wykresy pudełkowe zapewniają pewne informacje, których nie ma w histogramie (przynajmniej nie wyraźnie). Oznacza to, że zazwyczaj podaje medianę, 25 i 75 percentyl, min / max, która nie jest wartością odstającą i wyraźnie oddziela punkty uważane za wartości odstające. To wszystko można „wyłowić” z histogramu (i może być lepiej zbadać je w przypadku wartości odstających).

O wiele większą zaletą jest jednak porównanie dystrybucji w wielu różnych grupach jednocześnie. Przy ponad 10 grupach jest to męczące zadanie z histogramami obok siebie, ale bardzo łatwe w przypadku wykresów pudełkowych.

Jak wspomniałeś, wątki skrzypcowe (lub wykresy fasoli) są nieco bardziej pouczającymi alternatywami. Wymagają one jednak nieco więcej wiedzy statystycznej niż wykresy pudełkowe (tj. Prezentując je nie-statystycznej publiczności, może to być nieco bardziej onieśmielające), a wykresy pudełkowe istnieją znacznie dłużej niż estymatory gęstości jądra, stąd ich większa popularność.

Komentarze

  • +1. Jednak korekta, wykresy pudełkowe zapewniają mediany, a nie środki.
  • Każdy może mieć rację. Wykresy pudełkowe, jak zwykle wykreślane, pokazują mediany (' widziałem to zaprzeczone, ale nie przypominam sobie, żeby widziałem przykład). Ale niektóre implementacje pozwalają również pokazać środki. To ' jest często dobrym pomysłem.
  • Dziękuję za zwrócenie uwagi. Ciągle (niepoprawnie) myślę, że ' jest zwykle średnią, która w skrajnych przypadkach może prowadzić do bardzo dziwnych wątków.
  • byłoby miło, gdyby były obrazy aby to zrobić, aby pokazać wartość bezpośrednich porównań z wykresami pudełkowymi i histogramami

Odpowiedź

  1. Jeśli pokażę Ci histogram i zapytam, gdzie jest mediana, może to zająć trochę czasu … a wtedy uzyskasz tylko przybliżenie.Jeśli zrobię to samo z wykresem pudełkowym, masz go natychmiast; jeśli to cię interesuje, wykresy pudełkowe oczywiście wygrywają.

  2. Zgadzam się, że wykresy pudełkowe nie są tak skuteczne, jak opis dystrybucji pojedynczej próbki, ponieważ redukują ją do kilku punktów, a to niewiele mówi.

    Jeśli jednak porównujesz wiele dziesiątek dystrybucji, posiadanie wszystkich szczegółów każdej z nich może być więcej informacji, niż można łatwo porównać – możesz chcieć ograniczyć informacje do mniejszej liczby elementów do porównania.

  3. Jeśli więcej informacji jest lepszych, istnieje wiele lepszych opcji niż histogram; na przykład wykres łodygi i liści lub wykres ecdf / kwantyl.

    Lub możesz dodać informacje do histogramu:

histogram z marginalnym wykresem pudełkowym histogram rugplot with jitter histogram z stripchartem

( wykresy z tej odpowiedzi )

Pierwsza z nich – dodanie wąskiego wykresu pudełkowego do marginesu – daje wszelkie korzyści do osiągnięcia z obu ekranów.

Odpowiedź

Wykresy słupkowe podają tylko zakres częstotliwości obserwacji, podczas gdy wykresy pudełkowe są lepsze w określeniu, gdzie kilka parametry rozkładu leżą, przykład średniej i wariancji, których wykres słupkowy nie może. Wykresy pudełkowe są zatem wykorzystywane jako skuteczne narzędzie porównawcze, jeśli mamy kilka rozkładów.

Komentarze

  • Rzadko kiedy wykres pudełkowy wyświetla średnią – prawie zawsze używają median – i nigdy nie reprezentują bezpośrednio wariancji. Zwróć też uwagę, że te wielkości zwykle nie są uważane za ” parametry rozkładu „: są to statystyki opisowe dla partii danych .
  • Dokładnie, są one dobrym narzędziem do opisywania dystrybucji bez konieczności wykonywania zbyt wielu obliczeń. I wyświetlają więcej mediany, a ponieważ w wielu przypadkach obie miary pokrywają się, wykresy pudełkowe są również dobrym narzędziem do przybliżania średniej.
  • Twój komentarz wydaje się nadal mylić dane z podstawową dystrybucją . Bardzo rzadko zdarza się, aby średnia była równa medianie w jakimkolwiek zestawie danych. Co więcej, jednym z lepszych i najczęstszych zastosowań wykresu pudełkowego jest identyfikacja asymetrii, co zwykle oznacza istotną różnicę między średnią a medianą. Jedną z podstawowych zasad oryginalnej koncepcji wykresu pudełkowego jest to, że jest to solidne narzędzie eksploracyjne – co oznacza, że lepiej nie opierać się na wrażliwych statystykach, takich jak średnia lub wariancja.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *