Os histogramas fornecem uma boa noção da distribuição de uma variável. Os gráficos de caixa tentam fazer a mesma coisa, entretanto, não fornecem uma imagem tão boa da distribuição dessa variável.

Não entendo por que as pessoas usam os gráficos de caixa. Os histogramas são melhores em todos os aspectos. Há uma razão para eu usar os dois?

A única coisa que acho que os gráficos de caixa fornecem são: outliers! Ele nos diz quais observações podem ser discrepantes.

Comentários

  • O histograma é pior em todos os aspectos do que uma representação de toda a distribuição?
  • Depende do que você quiser, com um gráfico de caixa você pode ter alguns valores precisos (por exemplo, mediana, P75), que você não tem com um histograma. Ele exibe menos informações, mas é mais sintético. Meu ponto é que mesmo um histograma é uma simplificação e um desperdício de informação em comparação com toda a distribuição. Mas pode ser mais fácil de usar
  • Um ponto de vista contrário sobre a utilidade dos histogramas foi convincentemente expresso, e bem ilustrado, na postagem altamente votada em stats .stackexchange.com / a / 51753 (que pode ser encontrado pesquisando em nosso site por ” histograma “).
  • Pensamento interessante – mas aumentar o tamanho do compartimento reduziria o histograma a uma figura semelhante a um boxplot, ao mesmo tempo em que retém sua infeliz dependência da escolha dos pontos de corte. IMHO, os reais méritos dos boxplots podem ser melhor avaliados estudando o uso de Tukey ‘ s do resumo de N letras para análise exploratória de dados multivariados e lembrando que ele estava calculando com lápis e papel no momento. Para visualizações como um ” traço esquemático errante ” outros resumos univariados de respostas condicionais, como histogramas ou tramas de violino, simplesmente não funcionariam.
  • As duas falhas (imo) do histograma acontecem quando há poucas amostras ou quando as caixas são de tamanhos errados. A fraqueza de um bom boxplot (e eu ‘ estou pensando na variabilidade JMP quando digo isso) são as modalidades múltiplas e os detalhes finos. Um lugar onde o boxplot brilha é quando há poucas amostras. Eu também gosto quando há várias variáveis interagindo em níveis diferentes – daí o gráfico de variabilidade JMP.

Resposta

O fato de que os gráficos de caixa fornecem mais um resumo de uma distribuição também pode ser visto como uma vantagem em certos casos. Às vezes, quando comparamos distribuições, não nos importamos com a forma geral, mas sim com onde as distribuições estão em relação umas às outras. Traçar os quantis lado a lado pode ser uma maneira útil de fazer isso, sem nos distrair com outros detalhes que talvez não nos importem.

Comentários

  • Esta é a melhor resposta. Boxplots são melhores para comparar distribuições do que histogramas!

Resposta

No caso univariado, box-plots fornecem algumas informações que o histograma não possui (pelo menos, não explicitamente). Ou seja, ele normalmente fornece a mediana, 25º e 75º percentis, mín. / Máx. Que não é um valor atípico e separa explicitamente os pontos considerados atípicos. Isso tudo pode ser “verificado” a partir do histograma (e pode ser melhor analisá-lo no caso de outliers).

No entanto, a vantagem muito maior é comparar distribuições em muitos grupos diferentes ao mesmo tempo. Com mais de 10 grupos, esta é uma tarefa cansativa com histogramas lado a lado, mas muito fácil com diagramas de caixa.

Como você mencionou, plotagens de violino (ou plotagem de feijão) são alternativas um pouco mais informativas. No entanto, eles exigem um pouco mais de conhecimento estatístico do que os gráficos de caixa (ou seja, se apresentados a um público não estatístico, pode ser um pouco mais intimidante) e os gráficos de caixa existem há muito mais tempo do que os estimadores de densidade do kernel, daí sua maior popularidade.

Comentários

  • +1. Correção, porém, os gráficos de caixa fornecem medianas, não meios.
  • Todos podem estar certos. Os gráficos de caixa normalmente mostram as medianas (eu ‘ vi isso negado, mas não me lembro de ter visto um exemplo). Mas algumas implementações permitem que você mostre os meios também. Essa ‘ costuma ser uma boa ideia.
  • Obrigado por apontar isso. Eu continuo (incorretamente) pensando que ‘ é geralmente a média, o que poderia levar a alguns enredos muito estranhos em casos extremos.
  • seria bom se houvesse imagens acompanhar isso para mostrar o valor das comparações lado a lado com gráficos de caixa versus histogramas

Resposta

  1. Se eu mostrar um histograma e perguntar onde está a mediana, você pode demorar um pouco para descobrir … e então você obterá apenas uma aproximação dela.Se eu fizer o mesmo com um boxplot, você o terá imediatamente; se é “nisso que você” está interessado, os boxplots obviamente vencem.

  2. Eu concordo que os boxplots não são tão eficazes quanto uma descrição da distribuição de uma única amostra, pois eles reduzem a poucos pontos e isso não diz muito.

    No entanto, se você estiver comparando muitas dezenas de distribuições, ter todos os detalhes de cada uma pode ser mais informações do que podem ser facilmente comparadas – você pode querer reduzir as informações a um número menor de itens para comparar.

  3. Se mais informações são melhores, há muitas opções melhores do que o histograma; um gráfico de caule e folha, por exemplo, ou um gráfico ecdf / quantil.

    Ou você pode adicionar informações a um histograma:

histograma com boxplot marginal histograma rugplot com jitter histograma com stripchart

( plotagens desta resposta )

O primeiro deles – adicionar um boxplot estreito à margem – oferece quaisquer benefícios a serem obtidos de qualquer tela.

Resposta

Os gráficos de barra fornecem apenas a faixa de frequência de observações, enquanto os gráficos de caixa são melhores para dizer onde vários parâmetros de uma mentira de distribuição, média de exemplo e variâncias que os gráficos de barra não podem. Os boxplots são, portanto, usados como uma ferramenta comparativa eficaz se houver várias distribuições.

Comentários

  • É raro um boxplot exibir uma média -quase sempre usam medianas – e nunca representam as variações diretamente. Observe também que essas quantidades geralmente não são consideradas ” parâmetros de uma distribuição “: são estatísticas descritivas para um lote de dados .
  • Exatamente, eles são uma boa ferramenta para descrever uma distribuição sem fazer muitos cálculos. E eles exibem mais medianas, e como em muitos casos as duas medidas coincidem, os gráficos de caixa também são uma boa ferramenta para aproximar a média.
  • Seu comentário parece continuar confundindo os dados com a distribuição subjacente . É muito raro que a média seja igual à mediana em qualquer lote de dados. Além disso, um dos melhores e mais comuns usos do boxplot é identificar assimetria, o que geralmente implica em uma diferença importante entre a média e a mediana. Um dos princípios fundamentais por trás da concepção original do boxplot é que ele seja uma ferramenta exploratória robusta – o que implica que é melhor não se basear em estatísticas sensíveis como a média ou variância.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *