Histogrammer giver en god fornemmelse af fordelingen af en variabel. Boxplots forsøger at gøre det samme, men giver ikke så godt et billede af fordelingen af denne variabel.
Jeg forstår ikke, hvorfor folk bruger boxplots. Histogrammer er bedre på alle måder. Er der en grund til, at jeg vil bruge dem begge?
Det eneste, jeg tror, at boksplots giver, er: outliers! Det fortæller os, hvilke observationer der kan være outliers.
Kommentarer
- Er histogram værre på alle måder end en repræsentation af hele fordelingen?
- Afhænger af hvad du vil have, med et feltplot kan du have nogle nøjagtige værdier (f.eks. median, P75), som du ikke har med et histogram. Det viser mindre information, men er mere syntetisk. Mit punkt er, at selv et histogram er en forenkling og spild af information sammenlignet med hele distributionen. Men det kan være lettere at bruge
- Et modsat synspunkt om anvendelsen af histogrammer er blevet tydeligt udtrykt og godt illustreret i det stærkt opstemte indlæg i stats .stackexchange.com / a / 51753 (som kan findes ved at søge på vores side for ” histogram “).
- Interessant tanke – men at øge papirkurven ville reducere histogrammet til en boxplot-lignende figur, samtidig med at den uheldige afhængighed af valget af cutpoints bevares. IMHO, de virkelige fordele ved boxplots kan bedst værdsættes ved at studere Tukey ‘ s brug af N-bogstavsoversigten til udforskende analyse af multivariate data og huske at han beregner med blyant og papir på det tidspunkt. Til visualiseringer som et ” vandrende skematisk spor ” andre univariate resuméer af betingede svar, som histogrammer eller violinplots, ville simpelthen ikke fungere.
- De to fejl (imo) i histogrammet opstår, når der er få prøver, eller når bokserne har de forkerte størrelser. Svagheden ved en god boxplot (og jeg ‘ tænker på JMP-variabilitet, når jeg siger det) er multimodalitet og fine detaljer. Et sted, hvor boxplot skinner, er når der er få prøver. Jeg kan også godt lide det, når der er et antal interagerende variabler på forskellige niveauer – dermed JMP-variabilitetsplottet.
Svar
Det faktum, at boksdiagrammer giver mere et resumé af en distribution, kan også i visse tilfælde ses som en fordel. Nogle gange når vi sammenligner distributioner, er vi ligeglade med den overordnede form, men snarere hvor distributionerne ligger i forhold til hinanden. At plotte kvantilerne side om side kan være en nyttig måde at gøre dette på uden at distrahere os med andre detaljer, som vi måske ikke bryr os om.
Kommentarer
- Dette er det bedste svar. Boxplots er bedre til at sammenligne distributioner end histogrammer!
Svar
I det univariate tilfælde giver box-plots nogle oplysninger, som histogrammet ikke gør (i det mindste ikke eksplicit). Det vil sige, det giver typisk median, 25. og 75. percentil, min / max, der ikke er en outlier og adskiller eksplicit de punkter, der betragtes som outliers. Dette kan alle være “øjenkuglet” fra histogrammet (og det kan være bedre at øje med det i tilfælde af outliers).
Den meget større fordel er dog at sammenligne distributioner på tværs af mange forskellige grupper på én gang. Med 10+ grupper er dette en trættende opgave med side-by-side histogrammer, men meget let med boksdiagrammer.
Som du nævnte, er violinplotter (eller bønneplotter) noget mere informative alternativer. Imidlertid kræver de lidt mere statistisk viden end kasseoversigterne (dvs. hvis de præsenteres for et ikke-statistisk publikum, kan det være lidt mere skræmmende) og kasseoversigter har eksisteret meget længere end kernedensitetsestimatorer, derfor deres større popularitet.
Kommentarer
- +1. Korrektion, men box-plots giver medianer, ikke midler.
- Alle kan have ret. Box-plots som normalt plottet viser medianer (jeg ‘ har set dette nægtet, men husker ikke at have set et eksempel). Men nogle implementeringer giver dig også mulighed for at vise midler. At ‘ ofte er en god idé.
- Tak fordi du påpegede det. Jeg tænker (forkert), at det ‘ normalt er middelværdien, hvilket i ekstreme tilfælde kunne føre til nogle meget underlige plot.
- ville være rart, hvis der var billeder at gå sammen med dette for at vise værdien af sammenligninger side om side med boksdiagrammer vs histogrammer
Svar
-
Hvis jeg viser dig et histogram og spørger dig, hvor medianen er, har du muligvis noget tid til at finde ud af det … og så får du kun en tilnærmelse til det.Hvis jeg gør det samme med en boxplot, har du det straks; hvis det er det, du er interesseret i, vinder boxplots selvfølgelig.
-
Jeg er enig i, at boxplots ikke er så effektive som en beskrivelse af distributionen af en enkelt prøve, da de reducerer det til et par punkter, og det fortæller dig ikke meget.
Men hvis du sammenligner mange snesevis af distributioner, kan alle detaljer i hver være mere information end der er let at sammenligne – det kan være en god idé at reducere informationen til et mindre antal ting at sammenligne.
-
Hvis flere oplysninger er bedre, er der mange bedre valg end histogrammet for eksempel en stamme- og bladplot eller en ecdf / kvantilplot.
Eller du kan tilføje oplysninger til et histogram:
( plots fra dette svar )
Den første af dem – tilføjelse af en smal boxplot til margenen – giver dig eventuelle fordele, der kan opnås fra begge skærmbilleder.
Svar
Søjlediagrammer giver kun rækkevidden af observationer, mens kasseoversigter er bedre til at fortælle hvor flere parametre for en fordeling ligger, eksempelvis gennemsnit og afvigelser, som søjleplotter ikke kan. Boxplots bruges således som et effektivt komparativt værktøj, hvis man har flere fordelinger.
Kommentarer
- Det er sjældent, at en boxplot viser en middel- -De bruger altid medianer – og de repræsenterer aldrig afvigelser direkte. Bemærk også, at disse størrelser normalt ikke betragtes som ” parametre for en distribution “: de er beskrivende statistikker for et parti af data .
- Præcist, de er et godt værktøj til at beskrive en distribution uden at gå for meget beregninger. Og de viser medianer mere, og da begge mål i mange tilfælde falder sammen, er boksdiagrammer også et godt værktøj til at tilnærme gennemsnittet.
- Din kommentar synes at fortsætte med at forvirre dataene med den underliggende distribution . Det er meget sjældent, at middelværdien svarer til medianen i et hvilket som helst batch af data. Desuden er en af de bedre og mest almindelige anvendelser af boxplot at identificere asymmetri, hvilket normalt indebærer en vigtig forskel mellem middel og median. Et af de grundlæggende principper bag den originale opfattelse af boxplot er, at det er et robust efterforskningsværktøj – hvilket betyder, at det bedre ikke skal baseres på følsomme statistikker som middelværdien eller variansen.