Gli istogrammi danno un buon senso della distribuzione di una variabile. I grafici a riquadri tentano di fare la stessa cosa, tuttavia, non danno unimmagine altrettanto buona della distribuzione di questa variabile.

Non capisco perché le persone usano i grafici a riquadri. Gli istogrammi sono migliori in ogni modo. Cè una ragione per cui li userei entrambi?

Lunica cosa che penso che i box plot forniscano è: valori anomali! Ci dice quali osservazioni possono essere valori anomali.

Commenti

  • Istogramma è peggiore in ogni modo di una rappresentazione dellintera distribuzione?
  • Dipende da quello che vuoi, con un box plot puoi avere dei valori precisi (es mediana, P75), che non hai con un istogramma. Mostra meno informazioni, ma è più sintetico. Il punto è che anche un istogramma è una semplificazione e uno spreco di informazioni rispetto allintera distribuzione. Ma può essere più facile da usare
  • Un punto di vista contrario sullutilità degli istogrammi è stato espresso in modo convincente e ben illustrato nel post altamente votato su stats .stackexchange.com / a / 51753 (che può essere trovato cercando nel nostro sito ” histogram “).
  • Pensiero interessante, ma aumentare la dimensione del contenitore ridurrebbe listogramma a una figura simile a un grafico a scatole pur mantenendo la sua sfortunata dipendenza dalla scelta dei punti di divisione. Secondo me, i veri meriti dei grafici a scatole possono essere meglio apprezzati studiando luso di Tukey ‘ del sommario N-lettere per lanalisi esplorativa di dati multivariati e ricordando che stava calcolando con carta e penna al momento. Per visualizzazioni come un ” traccia schematica errante ” altri riassunti univariati di risposte condizionali, come istogrammi o trame di violino, semplicemente non funzionerebbero.
  • I due fallimenti (imo) dellistogramma si verificano quando ci sono pochi campioni o quando le scatole hanno dimensioni sbagliate. Il punto debole di un buon boxplot (e io ‘ penso alla variabilità di JMP quando lo dico) sono la multi-modalità e i dettagli precisi. Un punto in cui il boxplot brilla è quando ci sono pochi campioni. Mi piace anche quando ci sono un numero di variabili interagenti a diversi livelli, quindi il grafico della variabilità di JMP.

Risposta

Il fatto che i box plot forniscano più di un riepilogo di una distribuzione può anche essere visto come un vantaggio in alcuni casi. A volte, quando confrontiamo le distribuzioni, non ci interessa la forma generale, ma piuttosto dove si trovano le distribuzioni luna rispetto allaltra. Tracciare i quantili fianco a fianco può essere un modo utile per farlo senza distrarci con altri dettagli che potrebbero non interessarci.

Commenti

  • Questa è la migliore risposta. I grafici a scatole sono migliori per confrontare le distribuzioni rispetto agli istogrammi!

Risposta

Nel caso univariato, i grafici a scatola forniscono alcune informazioni che listogramma non fornisce (almeno, non esplicitamente). Cioè, in genere fornisce la mediana, 25 ° e 75 ° percentile, min / max che non è un valore anomalo e separa esplicitamente i punti considerati valori anomali. Tutto questo può essere “eyeballed” dallistogramma (e potrebbe essere meglio essere “eyeballed” nel caso di valori anomali).

Tuttavia, il vantaggio molto più grande sta nel confrontare le distribuzioni tra molti gruppi diversi contemporaneamente. Con 10+ gruppi, questo è un compito faticoso con istogrammi affiancati, ma molto facile con i box plot.

Come hai detto, le trame di violino (o trame di fagioli) sono alternative in qualche modo più informative. Tuttavia, richiedono una conoscenza statistica leggermente superiore rispetto ai box plot (ad esempio, se si presentano a un pubblico non statistico, potrebbe essere un po più intimidatorio) e i box-plot sono stati molto più lunghi degli stimatori della densità del kernel, da qui la loro maggiore popolarità.

Commenti

  • +1. Tuttavia, la correzione, i box-plot forniscono mediane, non mezzi.
  • Tutti possono avere ragione. I box plot come di solito vengono tracciati mostrano le mediane (‘ lho visto negato, ma non ricordo di aver visto un esempio). Ma alcune implementazioni ti consentono di mostrare anche i mezzi. ‘ è spesso una buona idea.
  • Grazie per averlo sottolineato. Continuo a pensare (erroneamente) che ‘ sia solitamente la media, il che potrebbe portare a trame molto strane in casi estremi.
  • sarebbe carino se ci fossero immagini insieme a questo per mostrare il valore dei confronti affiancati con box plot e istogrammi

Risposta

  1. Se ti mostro un istogramma e ti chiedo dove si trova la mediana, potresti impiegare un bel po di tempo a capirlo … e poi otterrai solo unapprossimazione.Se faccio lo stesso con un boxplot lo hai immediatamente; se questo è ciò che ti interessa, ovviamente vincono i boxplots.

  2. Sono daccordo che i boxplot non sono efficaci quanto una descrizione della distribuzione di un singolo campione, dal momento che lo riducono a pochi punti e questo non ti dice molto.

    Tuttavia, se stai confrontando molte dozzine di distribuzioni, avere tutti i dettagli di ciascuna potrebbe essere più informazioni di quante siano facilmente comparabili: potresti voler ridurre le informazioni a un numero inferiore di cose da confrontare.

  3. Se più informazioni sono migliori, ci sono molte scelte migliori di listogramma; un grafico a stelo e foglia, ad esempio, o un grafico ecdf / quantile.

    Oppure puoi aggiungere informazioni a un istogramma:

istogramma con boxplot marginale istogramma rugplot con jitter istogramma con stripchart

( grafici da questa risposta )

Il primo di questi, laggiunta di un grafico a scatole stretto al margine, ti offre tutti i vantaggi che puoi ottenere da entrambi i display.

Risposta

I grafici a barre forniscono solo lintervallo di frequenza delle osservazioni, mentre i grafici a scatole sono più utili nel dire dove diversi parametri di una distribuzione si trovano, media di esempio e varianze che i grafici a barre non possono. I boxplot sono quindi usati come un efficace strumento di confronto se si hanno più distribuzioni.

Commenti

  • È raro che un boxplot mostri una media -quasi sempre usano le mediane e mai rappresentano direttamente le varianze. Tieni inoltre presente che queste quantità non sono generalmente considerate ” parametri di una distribuzione “: sono statistiche descrittive per un batch di dati .
  • Esattamente, sono un ottimo strumento per descrivere una distribuzione senza fare troppi calcoli. Inoltre mostrano più mediane, e poiché in molti casi entrambe le misure coincidono, i box plot sono anche un ottimo strumento per approssimare la media.
  • Il tuo commento sembra continuare a confondere i dati con la distribuzione sottostante . È molto raro che la media sia uguale alla mediana in qualsiasi batch di dati. Inoltre, uno degli usi migliori e più comuni del boxplot è identificare lasimmetria, che di solito implica una differenza importante tra media e mediana. Uno dei principi fondamentali alla base della concezione originale del boxplot è che si tratta di uno strumento esplorativo robusto , il che implica che è meglio non essere basato su statistiche sensibili come la media o la varianza.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *