Les histogrammes donnent une bonne idée de la distribution dune variable. Les boîtes à moustaches tentent de faire la même chose cependant, ne donnent pas une aussi bonne image de la distribution de cette variable.
Je ne comprends pas pourquoi les gens utilisent des boîtes à moustaches. Les histogrammes sont meilleurs à tous points de vue. Y a-t-il une raison pour laquelle jutiliserais les deux?
La seule chose que je pense que les boîtes à moustaches fournissent est: les valeurs aberrantes! Il nous indique quelles observations peuvent être des valeurs aberrantes.
Commentaires
- Lhistogramme est-il pire à tous égards quune représentation de la distribution entière?
- Dépend de ce que vous voulez, avec une boîte à moustaches, vous pouvez avoir des valeurs précises (par exemple médiane, P75), que vous navez pas avec un histogramme. Il affiche moins dinformations, mais est plus synthétique. Mon point est que même un histogramme est une simplification et un gaspillage dinformations par rapport à lensemble de la distribution. Mais il peut être plus facile à utiliser
- Un point de vue contraire sur lutilité des histogrammes a été exprimé de manière convaincante, et bien illustré, dans le message hautement voté à stats .stackexchange.com / a / 51753 (que vous pouvez trouver en recherchant sur notre site » histogramme « ).
- Pensée intéressante – mais augmenter la taille de la corbeille réduirait lhistogramme à une figure de type boîte à moustaches tout en conservant sa malheureuse dépendance sur le choix des points de coupure. À mon humble avis, les vrais mérites des boîtes à moustaches peuvent être mieux appréciés en étudiant lutilisation par Tukey ‘ du résumé en lettres N pour lanalyse exploratoire de données multivariées et en se rappelant quil calculait avec un crayon et du papier à lépoque. Pour des visualisations comme une » trace schématique errante « , dautres résumés univariés de réponses conditionnelles, comme des histogrammes ou des graphiques de violon, ne fonctionneraient tout simplement pas.
- Les deux échecs (imo) de lhistogramme se produisent lorsquil y a peu déchantillons ou lorsque les boîtes sont de la mauvaise taille. Les faiblesses dun bon boxplot (et je ‘ je pense à la variabilité JMP quand je le dis) sont la multi-modalité et les détails fins. Un endroit où la boîte à moustaches brille est lorsquil y a peu déchantillons. Jaime aussi quand il y a un certain nombre de variables en interaction à différents niveaux – donc le graphique de variabilité JMP.
Réponse
Le fait que les boîtes à moustaches fournissent davantage un résumé dune distribution peut également être considéré comme un avantage dans certains cas. Parfois, lorsque nous comparons des distributions, nous ne nous soucions pas de la forme générale, mais plutôt de la position des distributions les unes par rapport aux autres. Tracer les quantiles côte à côte peut être un moyen utile de le faire sans nous distraire avec dautres détails dont nous ne nous soucions peut-être pas.
Commentaires
- Cest la meilleure réponse. Les boxplots sont meilleurs pour comparer les distributions que les histogrammes!
Answer
Dans le cas univarié, les box-plots fournissent certaines informations que lhistogramme ne contient pas (du moins, pas explicitement). Autrement dit, il fournit généralement la médiane, 25e et 75e percentile, min / max qui nest pas une valeur aberrante et sépare explicitement les points considérés comme des valeurs aberrantes. Tout cela peut être «observé» à partir de lhistogramme (et peut être préférable dêtre observé dans le cas de valeurs aberrantes).
Cependant, le bien plus grand avantage est de comparer les distributions entre de nombreux groupes différents à la fois. Avec plus de 10 groupes, cest une tâche fatigante avec des histogrammes côte à côte, mais très facile avec des boîtes à moustaches.
Comme vous lavez mentionné, les parcelles de violon (ou parcelles de haricots) sont des alternatives un peu plus informatives. Cependant, ils nécessitent un peu plus de connaissances statistiques que les boîtes à moustaches (cest-à-dire que si elles sont présentées à un public non statistique, cela peut être un peu plus intimidant) et les boîtes à moustaches existent depuis beaucoup plus longtemps que les estimateurs de densité par noyau, doù leur plus grande popularité.
Commentaires
- +1. Correction cependant, les boîtes à moustaches fournissent des médianes, pas des moyennes.
- Tout le monde peut avoir raison. Les boîtes à moustaches, comme dhabitude, montrent les médianes (jai ‘ que jai vu cela refusé, mais je ne me souviens pas davoir vu un exemple). Mais certaines implémentations vous permettent également de montrer les moyens. Cette ‘ est souvent une bonne idée.
- Merci de l’avoir signalé. Je continue (à tort) à penser que ‘ est généralement la moyenne, ce qui pourrait conduire à des graphiques très étranges dans des cas extrêmes.
- serait bien sil y avait des images pour aller de pair avec ceci pour montrer la valeur des comparaisons côte à côte avec des boîtes à moustaches et des histogrammes
Answer
-
Si je vous montre un histogramme et que je vous demande où se trouve la médiane, il vous faudra peut-être un certain temps pour le comprendre … et vous n’obtiendrez alors qu’une approximation.Si je fais la même chose avec un boxplot, vous lavez immédiatement; si cest ce qui vous intéresse, les boxplots gagnent évidemment.
-
Je reconnais que les boxplots ne sont pas aussi efficaces quune description de la distribution dun seul échantillon, car ils le réduisent à quelques points et cela ne vous en dit pas beaucoup.
Cependant, si vous comparez plusieurs dizaines de distributions, avoir tous les détails de chacune peut être plus dinformations que ce qui est facile à comparer – vous voudrez peut-être réduire les informations à un plus petit nombre de choses à comparer.
-
Si plus dinformations sont meilleures, il existe de nombreux meilleurs choix que lhistogramme; un tracé à tige et feuille, par exemple, ou un tracé ecdf / quantile.
Ou vous pouvez ajouter des informations à un histogramme:
( tracés de cette réponse )
Le premier dentre eux – ajouter une boîte à moustaches étroite à la marge – vous donne tous les avantages à gagner depuis lun ou lautre affichage.
Réponse
Les diagrammes à barres fournissent uniquement la plage de fréquence des observations tandis que les diagrammes paramètres dun mensonge de distribution, exemple de moyenne et de variances que les graphiques à barres ne peuvent pas. Les boîtes à moustaches sont donc utilisées comme un outil de comparaison efficace si lon a plusieurs distributions.
Commentaires
- Il est rare quune boîte à moustaches affiche une moyenne- – ils utilisent presque toujours des médianes – et ils ne représentent jamais directement les écarts. Notez également que ces quantités ne sont généralement pas considérées comme des » paramètres dune distribution « : ce sont des statistiques descriptives pour un lot de données .
- Exactement, ils sont un bon outil pour décrire une distribution sans faire trop de calculs. Et ils affichent davantage les médianes, et comme dans de nombreux cas, les deux mesures coïncident, les boîtes à moustaches sont également un bon outil pour estimer la moyenne.
- Votre commentaire semble continuer à confondre les données avec la distribution sous-jacente . Il est très rare que la moyenne égale la médiane dun lot de données. De plus, lune des utilisations les plus efficaces et les plus courantes du boxplot est didentifier lasymétrie, ce qui implique généralement une différence importante entre la moyenne et la médiane. L’un des principes fondamentaux de la conception originale de la boîte à moustaches est qu’il s’agit d’un outil exploratoire robuste – ce qui implique qu’il vaut mieux ne pas se fonder sur des statistiques sensibles comme la moyenne ou la variance.