Histogramy poskytují dobrý smysl pro distribuci proměnné. Krabicové grafy se pokoušejí udělat totéž, nicméně nedávejte dobrý obrázek o distribuci této proměnné.

Nerozumím, proč lidé používají krabicové grafy. Histogramy jsou v každém ohledu lepší. Existuje důvod, proč bych je použil oba?

Jediná věc, o které si myslím, že krabicové grafy poskytují, je: odlehlé hodnoty! Říká nám, která pozorování mohou být odlehlými hodnotami.

Komentáře

  • Je histogram horší ve všech směrech než reprezentace celé distribuce?
  • Záleží na tom, co chcete, s rámečkovým grafem můžete mít nějaké přesné hodnoty (např. medián, P75), které s histogramem nemáte. Zobrazuje méně informací, ale je syntetičtější. Jde mi o to, že i histogram je ve srovnání s celou distribucí zjednodušením a plýtváním informacemi. Může to být ale jednodušší
  • Opačný názor na užitečnost histogramů byl kogentně vyjádřen a dobře ilustrován ve vysoce upvotovaném příspěvku na statistikách .stackexchange.com / a / 51753 (který lze najít vyhledáním “ histogramu “ na našem webu).
  • Zajímavá myšlenka – ale zvětšení velikosti přihrádky by histogram zmenšilo na obrázek podobný krabicovému grafu při zachování jeho nešťastné závislosti na volbě hraničních hodnot. IMHO, skutečné zásluhy boxplotů lze nejlépe ocenit studiem Tukey ‚ s použitím souhrnu N-dopisu pro průzkumnou analýzu mnohorozměrných dat a zapamatováním, že počítal tužkou a papírem v době, kdy. Pro vizualizace jako “ putující schematické trasování “ další jednorozměrné souhrny podmíněných odpovědí, jako jsou histogramy nebo houslové grafy, by jednoduše nefungovalo.
  • K dvěma selháním (imo) histogramu dochází, když existuje několik vzorků nebo když jsou políčka nesprávné velikosti. Slabinou dobrého boxplotu (a když říkám variabilitu JMP přemýšlím o variabilitě JMP) je multimodalita a jemné detaily. Jedno místo, kde boxplot svítí, je, když je málo vzorků. Také se mi líbí, když existuje řada interagujících proměnných na různých úrovních – tedy graf variability JMP.

Odpověď

Skutečnost, že grafy polí poskytují více souhrnu distribuce, lze v určitých případech také považovat za výhodu. Někdy, když porovnáváme distribuce, nám nezáleží na celkovém tvaru, ale spíše na tom, kde distribuce leží navzájem. Užitečným způsobem, jak toho dosáhnout, může být užitečné vykreslování kvantilů, aniž by nás to rušilo dalšími podrobnostmi, které nás nemusí zajímat.

Komentáře

  • To je nejlepší odpověď. Boxploty jsou pro porovnání distribucí lepší než histogramy!

Odpověď

V případě jednorozměrných případů box-ploty poskytují některé informace, které histogram nemá (alespoň ne výslovně). To znamená, že obvykle poskytuje medián, 25. a 75. percentil, min / max, který není odlehlý, a výslovně odděluje body, které jsou považovány za odlehlé. To vše lze z histogramu „zavěsit do oka“ (a v případě odlehlých hodnot může být lepší zavést do oka).

Mnohem větší výhodou je však porovnání distribucí napříč mnoha různými skupinami najednou. S 10+ skupinami je to únavný úkol s histogramy vedle sebe, ale velmi snadný s krabičkovými grafy.

Jak jste zmínili, houslové grafy (nebo fazolové grafy) jsou poněkud informativní alternativou. Vyžadují však o něco více statistických znalostí než krabicové grafy (tj. Pokud jsou prezentovány nestatistickému publiku, může to být trochu zastrašující) a krabicové grafy jsou mnohem delší než odhady hustoty jádra, a proto mají větší popularitu.

Komentáře

  • +1. Oprava však, krabicové grafy poskytují mediány, nikoli prostředky.
  • Každý může mít pravdu. Krabicové grafy, jak jsou obvykle vyneseny, ukazují mediány (viděl jsem to ‚ odmítnuto, ale nepamatuji si, že bych viděl příklad). Některé implementace vám ale také umožňují ukázat prostředky. To ‚ je často dobrý nápad.
  • Děkujeme, že jste na to upozornili. Stále (nesprávně) si myslím, že ‚ s je obvykle průměr, což by v extrémních případech mohlo vést k velmi podivným zápletkám.
  • bylo by hezké, kdyby existovaly obrázky spolu s tím ukázat hodnotu vzájemného porovnání s krabicovými grafy vs histogramy

odpověď

  1. Pokud vám ukážu histogram a zeptám se vás, kde je medián, možná už nějakou dobu na to přijdete … a pak k němu získáte pouze přibližný odhad.Pokud udělám totéž s boxplotem, máte to okamžitě; pokud to, co vás zajímá, boxploty očividně vyhrávají.

  2. Souhlasím s tím, že boxploty nejsou tak účinné jako popis distribuce jediného vzorku, protože to snižují na několik bodů, a to vám toho moc neřekne.

    Pokud však porovnáváte mnoho desítek distribucí, může mít všechny podrobnosti každé z nich více informací, než je snadné porovnat – možná budete chtít informace zredukovat na menší počet věcí k porovnání.

  3. Pokud je více informací lepší, existuje mnoho lepších možností než histogram; například stopku a list nebo plot ecdf / kvantil.

    Nebo můžete přidat informace do histogramu:

histogram s marginálním boxplotem histogram rugplot s chvěním histogram s stripchartem

( grafy z této odpovědi )

První z nich – přidání úzkého boxplot na okraj – vám přináší výhody, které lze získat z obou displejů.

Odpověď

Sloupcové grafy poskytují pouze rozsah četnosti pozorování, zatímco krabicové grafy lépe určují, kde je několik parametry distribuční lži, průměr příkladu a odchylky, které sloupcové grafy nemohou. Krabicové grafy se tedy používají jako účinný srovnávací nástroj, pokud má člověk několik distribucí.

Komentáře

  • Je zřídka, aby boxplot zobrazoval střední – téměř vždy používají mediány – a nikdy představují odchylky přímo. Pamatujte také, že tyto veličiny obvykle nejsou považovány za “ parametry distribuce „: jsou to popisné statistiky pro dávku dat .
  • Přesně tak, jsou to pěkný nástroj pro popis distribuce, aniž by bylo nutné provádět příliš mnoho výpočtů. A zobrazují více mediány, a protože v mnoha případech se obě míry shodují, jsou grafy polí pěkným nástrojem k přiblížení také průměru.
  • Zdá se, že váš komentář i nadále mátl data s podkladovou distribucí . Je velmi vzácné, aby se průměr rovnal mediánu v jakékoli dávce dat. Jedním z lepších a nejběžnějších použití boxplot je navíc identifikace asymetrie, což obvykle znamená důležitý rozdíl mezi střední a střední hodnotou. Jedním ze základních principů původní koncepce boxplot je, že se jedná o robustní průzkumný nástroj – což znamená, že by nemělo být založeno na citlivých statistikách, jako je průměr nebo rozptyl.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *