Histogramme geben einen guten Überblick über die Verteilung einer Variablen. Box-Plots versuchen, dasselbe zu tun, geben jedoch kein so gutes Bild von der Verteilung dieser Variablen.
Ich verstehe nicht, warum Leute Box-Plots verwenden. Histogramme sind in jeder Hinsicht besser. Gibt es einen Grund, warum ich beide verwenden würde?
Das einzige, was ich denke, dass Box-Plots bieten: Ausreißer! Es sagt uns, welche Beobachtungen Ausreißer sein können.
Kommentare
- Ist das Histogramm in jeder Hinsicht schlechter als eine Darstellung der gesamten Verteilung?
- Abhängig davon, was Sie möchten, können Sie mit einem Box-Plot einige genaue Werte (z. B. Median, P75) haben, die Sie mit einem Histogramm nicht haben. Es zeigt weniger Informationen an, ist aber synthetischer. Mein Punkt ist, dass sogar ein Histogramm eine Vereinfachung und eine Verschwendung von Informationen im Vergleich zur gesamten Verteilung darstellt. Es kann jedoch einfacher sein,
- zu verwenden. Ein entgegengesetzter Standpunkt zur Nützlichkeit von Histogrammen wurde in dem hoch bewerteten Beitrag unter -Statistiken eindringlich zum Ausdruck gebracht und gut illustriert .stackexchange.com / a / 51753 (finden Sie auf unserer Website nach “ Histogramm „).
- Interessanter Gedanke – aber eine Vergrößerung der Behältergröße würde das Histogramm auf eine Boxplot-ähnliche Zahl reduzieren, während die unglückliche Abhängigkeit von der Wahl der Schnittpunkte erhalten bleibt. IMHO können die wahren Vorzüge von Boxplots am besten erkannt werden, indem Tukey ‚ die Verwendung der N-Buchstaben-Zusammenfassung für die explorative Analyse multivariater Daten untersucht und sich daran erinnert, dass er mit Bleistift und Papier berechnet hat damals. Bei Visualisierungen wie einer “ wandernden schematischen Spur “ würden andere univariate Zusammenfassungen von bedingten Antworten wie Histogrammen oder Geigenplots einfach nicht funktionieren.
- Die beiden Fehler (imo) des Histogramms treten auf, wenn nur wenige Stichproben vorhanden sind oder wenn die Kästchen die falsche Größe haben. Die Schwäche eines guten Boxplots (und ich ‚ denke an JMP-Variabilität, wenn ich es sage) sind Multimodalität und feine Details. Ein Ort, an dem das Boxplot leuchtet, ist, wenn es nur wenige Proben gibt. Ich mag es auch, wenn es eine Reihe interagierender Variablen auf verschiedenen Ebenen gibt – daher das JMP-Variabilitätsdiagramm.
Antwort
Die Tatsache, dass Box-Plots eher eine Zusammenfassung einer Verteilung darstellen, kann in bestimmten Fällen auch als Vorteil angesehen werden. Manchmal, wenn wir Verteilungen vergleichen, kümmern wir uns nicht um die Gesamtform, sondern darum, wo die Verteilungen in Bezug zueinander liegen. Das Nebeneinander der Quantile kann ein nützlicher Weg sein, ohne uns mit anderen Details abzulenken, die uns möglicherweise nicht interessieren.
Kommentare
- Dies ist die beste Antwort. Boxplots eignen sich besser zum Vergleichen von Verteilungen als Histogramme!
Antwort
Im univariaten Fall bieten Boxplots Einige Informationen, die das Histogramm nicht enthält (zumindest nicht explizit). Das heißt, es liefert normalerweise den Median, das 25. und 75. Perzentil, min / max, der kein Ausreißer ist, und trennt die Punkte, die als Ausreißer gelten, explizit. Dies kann alles aus dem Histogramm „beäugt“ werden (und kann bei Ausreißern besser beäugt werden).
Der viel größere Vorteil besteht jedoch darin, Verteilungen auf viele verschiedene Gruppen gleichzeitig zu vergleichen. Bei mehr als 10 Gruppen ist dies eine anstrengende Aufgabe mit nebeneinander angeordneten Histogrammen, bei Boxplots jedoch sehr einfach.
Wie Sie bereits erwähnt haben, sind Geigen- (oder Bohnen-) Diagramme etwas informativere Alternativen. Sie erfordern jedoch etwas mehr statistische Kenntnisse als die Box-Plots (d. H. Wenn sie einem nicht statistischen Publikum präsentiert werden, kann dies ein wenig einschüchternder sein), und Box-Plots gibt es schon viel länger als Kernel-Dichteschätzer, weshalb sie beliebter sind.
Kommentare
- +1. Korrektur: Box-Plots liefern Mediane, keine Mittelwerte.
- Jeder kann Recht haben. Box-Plots, wie sie normalerweise gezeichnet werden, zeigen Mediane (ich ‚ habe dies abgelehnt gesehen, erinnere mich aber nicht daran, ein Beispiel gesehen zu haben). Bei einigen Implementierungen können Sie jedoch auch Mittel anzeigen. Das ‚ ist oft eine gute Idee.
- Vielen Dank, dass Sie darauf hingewiesen haben. Ich denke immer (fälschlicherweise), dass ‚ normalerweise der Mittelwert ist, was in extremen Fällen zu sehr seltsamen Darstellungen führen kann.
- wäre schön, wenn es Bilder gäbe Dies zeigt den Wert von Nebeneinander-Vergleichen mit Box-Plots und Histogrammen.
Antwort
-
Wenn ich Ihnen ein Histogramm zeige und Sie frage, wo der Median ist, werden Sie möglicherweise einige Zeit damit verbringen, es herauszufinden … und dann erhalten Sie nur eine Annäherung daran.Wenn ich dasselbe mit einem Boxplot mache, hast du es sofort; Wenn das ist, woran Sie interessiert sind, gewinnen Boxplots offensichtlich.
-
Ich stimme zu, dass Boxplots nicht so effektiv sind wie eine Beschreibung der Verteilung einer einzelnen Stichprobe, da sie auf wenige Punkte reduziert wird und dies nicht viel aussagt.
Wenn Sie jedoch viele Dutzend Verteilungen vergleichen, können alle Details der einzelnen Stichproben vorhanden sein mehr Informationen als leicht zu vergleichen sind – möglicherweise möchten Sie die Informationen auf eine kleinere Anzahl von zu vergleichenden Dingen reduzieren.
-
Wenn mehr Informationen besser sind, gibt es viele bessere Möglichkeiten als das Histogramm; Zum Beispiel ein Stamm- und Blattdiagramm oder ein Ecdf / Quantil-Diagramm.
Oder Sie können einem Histogramm Informationen hinzufügen:
( Diagramme aus dieser Antwort )
Das erste davon – das Hinzufügen eines schmalen Boxplots am Rand – bietet Ihnen alle Vorteile, die Sie erzielen können
Antwort
Balkendiagramme bieten nur den Bereich der Beobachtungshäufigkeit, während Boxdiagramme besser erkennen können, wo mehrere Parameter einer Verteilung liegen, Beispielmittel und Varianzen, die Balkendiagramme nicht können. Boxplots werden daher als effektives Vergleichswerkzeug verwendet, wenn mehrere Verteilungen vorhanden sind.
Kommentare
- Es ist selten, dass ein Boxplot einen Mittelwert anzeigt. – Fast immer verwenden sie Mediane – und nie repräsentieren Varianzen direkt. Beachten Sie auch, dass diese Größen normalerweise nicht als “ -Parameter einer Verteilung “ betrachtet werden: Sie sind beschreibende Statistiken für einen Stapel von Daten .
- Genau, sie sind ein gutes Werkzeug, um eine Verteilung zu beschreiben, ohne zu viele Berechnungen durchzuführen. Und sie zeigen mehr Mediane an, und da in vielen Fällen beide Kennzahlen übereinstimmen, sind Box-Plots ein gutes Werkzeug, um auch den Mittelwert zu approximieren.
- Ihr Kommentar scheint die Daten weiterhin zu verwirren mit der zugrunde liegenden Verteilung . Es ist sehr selten, dass der Mittelwert in einem Datenstapel dem Median entspricht. Darüber hinaus besteht eine der besseren und häufigsten Anwendungen des Boxplots darin, Asymmetrie zu identifizieren, was normalerweise einen wichtigen Unterschied zwischen Mittelwert und Median impliziert. Eines der Grundprinzipien hinter der ursprünglichen Konzeption des Boxplots ist, dass es ein robustes Erkundungsinstrument ist – was impliziert, dass es besser nicht auf sensiblen Statistiken wie dem Mittelwert oder der Varianz basiert.