Los histogramas dan una buena idea de la distribución de una variable. Los diagramas de caja intentan hacer lo mismo, sin embargo, no dan una imagen tan buena de la distribución de esta variable.

No entiendo por qué la gente usa diagramas de caja. Los histogramas son mejores en todos los sentidos. ¿Hay alguna razón por la que usaría ambos?

Lo único que creo que proporcionan los diagramas de caja es: ¡valores atípicos! Nos dice qué observaciones pueden ser valores atípicos.

Comentarios

  • ¿Es el histograma peor en todos los sentidos que una representación de toda la distribución?
  • Depende de lo que desee, con un diagrama de caja puede tener algunos valores precisos (por ejemplo, mediana, P75), que no tiene con un histograma. Muestra menos información, pero es más sintético. Mi punto es que incluso un histograma es una simplificación y un desperdicio de información en comparación con la distribución completa. Pero puede ser más fácil de usar
  • Un punto de vista contrario sobre la utilidad de los histogramas se ha expresado de manera convincente y bien ilustrada en la publicación altamente votada en stats .stackexchange.com / a / 51753 (que se puede encontrar buscando en nuestro sitio » histograma «).
  • Pensamiento interesante, pero aumentar el tamaño del contenedor reduciría el histograma a una figura parecida a un diagrama de caja, manteniendo su desafortunada dependencia de la elección de los puntos de corte. En mi humilde opinión, los méritos reales de los diagramas de caja se pueden apreciar mejor al estudiar el uso que hace Tukey ‘ del resumen de letras N para el análisis exploratorio de datos multivariados y recordar que estaba calculando con lápiz y papel En el momento. Para visualizaciones como un » trazo esquemático errante «, otros resúmenes univariados de respuestas condicionales, como histogramas o diagramas de violín, simplemente no funcionarían.
  • Las dos fallas (imo) del histograma ocurren cuando hay pocas muestras o cuando las cajas tienen tamaños incorrectos. La debilidad de un buen diagrama de caja (y yo ‘ estoy pensando en la variabilidad de JMP cuando lo digo) es la multimodalidad y los detalles finos. Un lugar donde brilla la gráfica de caja es cuando hay pocas muestras. También me gusta cuando hay una serie de variables que interactúan en diferentes niveles, de ahí el gráfico de variabilidad de JMP.

Respuesta

El hecho de que los diagramas de caja proporcionen más un resumen de una distribución también puede verse como una ventaja en ciertos casos. A veces, cuando comparamos distribuciones, no nos preocupamos por la forma general, sino por dónde se encuentran las distribuciones entre sí. Trazar los cuantiles uno al lado del otro puede ser una forma útil de hacer esto sin distraernos con otros detalles que quizás no nos importen.

Comentarios

  • Esta es la mejor respuesta. Los diagramas de caja son mejores para comparar distribuciones que los histogramas.

Respuesta

En el caso univariante, los diagramas de caja proporcionan alguna información que el histograma no tiene (al menos, no explícitamente). Es decir, normalmente proporciona la mediana, percentil 25 y 75, mínimo / máximo que no es un valor atípico y separa explícitamente los puntos que se consideran valores atípicos. Todo esto se puede «observar» desde el histograma (y puede ser mejor hacerlo en el caso de valores atípicos).

Sin embargo, la ventaja mucho mayor es comparar distribuciones entre muchos grupos diferentes a la vez. Con más de 10 grupos, esta es una tarea agotadora con histogramas en paralelo, pero muy fácil con diagramas de caja.

Como mencionaste, las parcelas de violín (o parcelas de frijoles) son alternativas algo más informativas. Sin embargo, requieren un poco más de conocimiento estadístico que los diagramas de caja (es decir, si se presentan a una audiencia no estadística, puede ser un poco más intimidante) y los diagramas de caja han existido mucho más tiempo que los estimadores de densidad de kernel, de ahí su mayor popularidad.

Comentarios

  • +1. Sin embargo, la corrección es que los diagramas de caja proporcionan medianas, no medios.
  • Todos pueden tener razón. Los diagramas de caja, como se representan normalmente, muestran medianas (‘ he visto esto denegado, pero no recuerdo haber visto un ejemplo). Pero algunas implementaciones también le permiten mostrar medios. Eso ‘ suele ser una buena idea.
  • Gracias por señalarlo. Sigo pensando (incorrectamente) que ‘ suele ser la media, lo que podría llevar a algunas tramas muy extrañas en casos extremos.
  • Sería bueno si hubiera imágenes para acompañar esto para mostrar el valor de las comparaciones lado a lado con diagramas de caja frente a histogramas

Respuesta

  1. Si te muestro un histograma y te pregunto dónde está la mediana, es posible que tardes bastante en averiguarlo … y entonces solo obtendrás una aproximación.Si hago lo mismo con un diagrama de caja, lo tienes inmediatamente; si eso es lo que le interesa, obviamente los diagramas de caja ganan.

  2. Estoy de acuerdo en que los diagramas de caja no son tan efectivos como una descripción de la distribución de una sola muestra, ya que la reducen a unos pocos puntos y eso no te dice mucho.

    Sin embargo, si estás comparando muchas docenas de distribuciones, tener todos los detalles de cada una puede ser más información de la que se puede comparar fácilmente; es posible que desee reducir la información a un número menor de cosas para comparar.

  3. Si más información es mejor, hay muchas opciones mejores que el histograma; un diagrama de tallo y hojas, por ejemplo, o un diagrama de ecdf / cuantiles.

    O puede agregar información a un histograma:

histograma con diagrama de caja marginal histograma rugplot con jitter histograma con gráfico de bandas

( gráficos de esta respuesta )

El primero de ellos, agregar un gráfico de caja estrecho al margen, le brinda cualquier beneficio que pueda obtener desde cualquier pantalla.

Respuesta

Los diagramas de barras proporcionan solo el rango de frecuencia de las observaciones, mientras que los diagramas de caja son mejores para decir dónde los parámetros de una distribución mienten, ejemplo media y varianzas que los diagramas de barras no pueden. Los diagramas de caja se utilizan, por tanto, como una herramienta comparativa eficaz si se tiene varias distribuciones.

Comentarios

  • Es raro que un diagrama de caja muestre una media -casi siempre usan medianas – y nunca representan las variaciones directamente. Tenga en cuenta también que estas cantidades no suelen considerarse » parámetros de una distribución «: son estadísticas descriptivas para un lote de datos .
  • Exactamente, son una buena herramienta para describir una distribución sin hacer demasiados cálculos. Y muestran más medianas, y dado que en muchos casos ambas medidas coinciden, los diagramas de caja también son una buena herramienta para aproximar la media.
  • Su comentario parece seguir confundiendo los datos con la distribución subyacente . Es muy raro que la media sea igual a la mediana en cualquier lote de datos. Además, uno de los usos mejores y más comunes de la gráfica de caja es identificar la asimetría, lo que generalmente implica una diferencia importante entre la media y la mediana. Uno de los principios fundamentales detrás de la concepción original del diagrama de caja es que sea una herramienta exploratoria robusta , lo que implica que es mejor que no se base en estadísticas sensibles como la media o la varianza.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *