Histogrammen geven een goed beeld van de verdeling van een variabele. Boxplots proberen echter hetzelfde te doen, maar geven geen goed beeld van de verdeling van deze variabele.
Ik begrijp niet waarom mensen boxplots gebruiken. Histogrammen zijn in elk opzicht beter. Is er een reden waarom ik ze allebei zou gebruiken?
Het enige dat ik denk dat boxplots bieden, is: uitschieters! Het vertelt ons welke waarnemingen uitschieters kunnen zijn.
Opmerkingen
- Is het histogram in alle opzichten slechter dan een weergave van de hele verdeling?
- Hangt af van wat je wilt, met een boxplot kun je een aantal precieze waarden hebben (bijv. mediaan, P75), die je niet hebt met een histogram. Het geeft minder informatie weer, maar is meer synthetisch. Mijn punt is dat zelfs een histogram een vereenvoudiging is en een verspilling van informatie vergeleken met de hele distributie. Maar het kan gemakkelijker zijn om te gebruiken.
- Een tegengesteld standpunt over de bruikbaarheid van histogrammen is overtuigend uitgedrukt en goed geïllustreerd in de zeer positieve post op stats .stackexchange.com / a / 51753 (die kan worden gevonden door op onze site te zoeken naar ” histogram “).
- Interessante gedachte – maar het vergroten van de bin-grootte zou het histogram terugbrengen tot een boxplot-achtige figuur terwijl het zijn ongelukkige afhankelijkheid van de keuze van cutpoints zou behouden. IMHO, de echte verdiensten van boxplots kunnen het beste worden ingezien door Tukey ‘ s gebruik van de N-letter-samenvatting voor verkennende analyse van multivariate gegevens te bestuderen en te onthouden dat hij rekende met potlood en papier op het moment. Voor visualisaties zoals een ” dwalend schematisch spoor ” zouden andere univariate samenvattingen van voorwaardelijke antwoorden, zoals histogrammen of vioolplots, gewoon niet werken.
- De twee mislukkingen (imo) van het histogram treden op als er weinig monsters zijn of als de vakken de verkeerde afmetingen hebben. De zwakte van een goede boxplot (en ik ‘ m denkend aan JMP-variabiliteit als ik het zeg) zijn multi-modaliteit en fijne details. Een plek waar de boxplot schittert, is wanneer er maar weinig monsters zijn. Ik vind het ook leuk als er een aantal op elkaar inwerkende variabelen op verschillende niveaus zijn – dus de JMP-variabiliteitsplot.
Answer
Het feit dat boxplots meer een samenvatting van een verdeling geven, kan in bepaalde gevallen ook als een voordeel worden gezien. Soms, als we verdelingen opnieuw vergelijken, geven we niet om de algehele vorm, maar eerder waar de verdelingen ten opzichte van elkaar liggen. Het naast elkaar uitzetten van de kwantielen kan een handige manier zijn om dit te doen zonder ons af te leiden met andere details waar we misschien niet om geven.
Opmerkingen
- Dit is het beste antwoord. Boxplots zijn beter voor het vergelijken van distributies dan histogrammen!
Answer
In het univariate geval bieden boxplots wel enige informatie die het histogram niet bevat (althans, niet expliciet). Dat wil zeggen, het geeft doorgaans het mediaan, 25e en 75e percentiel, min / max dat geen uitbijter is en expliciet de punten scheidt die als uitschieters worden beschouwd. Dit kan allemaal worden “eyeballed” van het histogram (en kan beter zijn om in het geval van uitschieters te worden gezien).
Het veel grotere voordeel zit echter in het in één keer vergelijken van distributies over veel verschillende groepen. Met 10+ groepen is dit een vermoeiende taak met zij-aan-zij-histogrammen, maar heel gemakkelijk met boxplots.
Zoals je al zei, zijn vioolplots (of bonenplots) iets meer informatieve alternatieven. Ze vereisen echter iets meer statistische kennis dan de boxplots (d.w.z. als ze worden gepresenteerd aan een niet-statistisch publiek, kan het iets intimiderend zijn) en boxplots bestaan veel langer dan kerneldichtheidsschatters, vandaar hun grotere populariteit.
Reacties
- +1. Maar correctie, box-plots bieden medianen, geen middelen.
- Iedereen kan gelijk hebben. Boxplots zoals gewoonlijk geplotte tonen medianen (ik ‘ heb dit afgewezen gezien, maar kan me niet herinneren dat ik een voorbeeld heb gezien). Maar bij sommige implementaties kun je ook de middelen laten zien. Dat ‘ is vaak een goed idee.
- Bedankt dat je erop hebt gewezen. Ik blijf (ten onrechte) denken dat ‘ meestal het gemiddelde is, wat in extreme gevallen tot een aantal zeer rare plots zou kunnen leiden.
- zou leuk zijn als er afbeeldingen waren om hierbij mee te gaan om de waarde te tonen van zij-aan-zij vergelijkingen met boxplots versus histogrammen
Answer
-
Als ik je een histogram laat zien en je vraag waar de mediaan is, kan het even duren voordat je het uitzoekt … en dan krijg je er alleen een benadering van.Als ik hetzelfde doe met een boxplot, heb je het meteen; als dat is waar je in geïnteresseerd bent, winnen boxplots duidelijk.
-
Ik ben het ermee eens dat boxplots niet zo effectief zijn als een beschrijving van de distributie van een enkele steekproef, aangezien ze het terugbrengen tot een paar punten en dat zegt u niet veel.
Als u echter vele tientallen distributies vergelijkt, kan het hebben van alle details van elk meer informatie dan gemakkelijk kan worden vergeleken – misschien wilt u de informatie beperken tot een kleiner aantal dingen om te vergelijken.
-
Als meer informatie beter is, zijn er veel betere keuzes dan het histogram; bijvoorbeeld een stengel- en bladplot of een ecdf / kwantielplot.
Of je kunt informatie toevoegen aan een histogram:
( plots van dit antwoord )
De eerste daarvan – het toevoegen van een smalle boxplot aan de marge – geeft u alle voordelen die u kunt behalen uit beide schermen.
Answer
Staafdiagrammen geven alleen het bereik van de frequentie van waarnemingen, terwijl boxplots beter aangeven waar meerdere parameters van een distributie lie, voorbeeld gemiddelde en varianties die staafdiagrammen niet kunnen. Boxplots worden dus gebruikt als een effectief vergelijkingsinstrument als er meerdere distributies zijn.
Opmerkingen
- Het komt zelden voor dat een boxplot een gemiddelde weergeeft. – bijna altijd gebruiken ze medianen – en ze geven nooit rechtstreeks varianties weer. Merk ook op dat deze hoeveelheden gewoonlijk niet worden beschouwd als ” parameters van een distributie “: het zijn beschrijvende statistieken voor een batch gegevens .
- Precies, ze zijn een mooi hulpmiddel om een distributie te beschrijven zonder al te veel berekeningen te hoeven maken. En ze geven meer medianen weer, en aangezien in veel gevallen beide maten samenvallen, zijn boxplots ook een leuk hulpmiddel om het gemiddelde te benaderen.
- Je opmerking lijkt de gegevens te blijven verwarren. met de onderliggende distributie . Het komt zelden voor dat het gemiddelde gelijk is aan de mediaan in een batch gegevens. Bovendien is een van de betere en meest voorkomende toepassingen van de boxplot het identificeren van asymmetrie, wat meestal een belangrijk verschil tussen gemiddelde en mediaan impliceert. Een van de fundamentele principes achter de oorspronkelijke opvatting van de boxplot is dat het een robuust verkennend hulpmiddel is – wat inhoudt dat het beter niet gebaseerd is op gevoelige statistieken zoals het gemiddelde of de variantie.