Histogrammer gir en god følelse av fordelingen av en variabel. Box plots prøver å gjøre det samme, men gir ikke like godt et bilde av distribusjonen av denne variabelen.

Jeg forstår ikke hvorfor folk bruker box-plots. Histogrammer er bedre på alle måter. Er det en grunn til at jeg vil bruke dem begge?

Det eneste jeg tror at kassetomter gir er: outliers! Den forteller oss hvilke observasjoner som kan være avvikende.

Kommentarer

  • Er histogram dårligere på alle måter enn en representasjon av hele fordelingen?
  • Avhenger av hva du vil, med en boksplott kan du ha noen nøyaktige verdier (f.eks. median, P75), som du ikke har med et histogram. Den viser mindre informasjon, men er mer syntetisk. Poenget mitt er at selv et histogram er en forenkling og bortkastet informasjon sammenlignet med hele distribusjonen. Men det kan være enklere å bruke
  • Et motsatt synspunkt om nytteverdien av histogrammer har blitt tydelig uttrykt og godt illustrert i det høyt oppstemte innlegget på stats .stackexchange.com / a / 51753 (som kan finnes ved å søke på siden vår for » histogram «).
  • Interessant tanke – men å øke søppelstørrelsen vil redusere histogrammet til en boksplottlignende figur mens den beholder sin uheldige avhengighet av valget av kuttpunkt. IMHO, de virkelige fordelene ved boxplots kan best verdsettes ved å studere Tukey ‘ s bruk av N-bokstavsammendraget for utforskende analyse av multivariate data og huske at han beregnet med blyant og papir på den tiden. For visualiseringer som et » vandrende skjematisk spor » andre univariate sammendrag av betingede responser, som histogrammer eller fiolinplott, ville ganske enkelt ikke fungere.
  • De to feilene (imo) i histogrammet skjer når det er få prøver eller når boksene har feil størrelse. Svakheten ved en god boxplot (og jeg ‘ tenker JMP-variabilitet når jeg sier det) er multimodalitet og fine detaljer. Et sted der bokseplottet skinner er når det er få prøver. Jeg liker det også når det er en rekke samhandlende variabler på forskjellige nivåer – dermed JMP-variabilitetsplottet.

Svar

Det at bokseplott gir mer av et sammendrag av en distribusjon, kan også i visse tilfeller sees på som en fordel. Noen ganger når vi sammenligner distribusjoner, bryr vi oss ikke om den generelle formen, men heller hvor fordelingen ligger i forhold til hverandre. Å plotte kvantilene side om side kan være en nyttig måte å gjøre dette uten å distrahere oss med andre detaljer som vi kanskje ikke bryr oss om.

Kommentarer

  • Dette er det beste svaret. Boxplots er bedre for å sammenligne distribusjoner enn histogrammer!

Svar

I det univariate tilfellet gir box-plots noe informasjon som histogrammet ikke gjør (i det minste ikke eksplisitt). Det vil si at det vanligvis gir median, 25. og 75. persentil, min / maks som ikke er en outlier, og som eksplisitt skiller punktene som regnes som outliers. Alt dette kan være «øyeeplet» fra histogrammet (og det kan være bedre å være øyeeplet i tilfelle avvik).

Den mye større fordelen er imidlertid å sammenligne fordelinger over mange forskjellige grupper samtidig. Med 10+ grupper er dette en slitsom oppgave med histogrammer side om side, men veldig enkelt med bokseplott.

Som du nevnte, er fiolinplott (eller bønneplott) noe mer informative alternativer. Imidlertid krever de litt mer statistisk kunnskap enn kartplottene (dvs. hvis de presenteres for et ikke-statistisk publikum, kan det være litt mer skremmende) og kartplott har eksistert mye lenger enn estimatorer for kjernetetthet, derav deres større popularitet.

Kommentarer

  • +1. Korrigering skjønt, boks-plott gir medianer, ikke midler.
  • Alle kan ha rett. Boksplott som vanligvis tegnet viser medianer (jeg ‘ har sett dette nektet, men husker ikke å ha sett et eksempel). Men noen implementeringer lar deg også vise midler. At ‘ ofte er en god idé.
  • Takk for at du påpekte det. Jeg tenker (feilaktig) at det ‘ vanligvis er gjennomsnittet, noe som i ekstreme tilfeller kan føre til noen veldig rare plott.
  • det ville vært fint hvis det var bilder å gå sammen med dette for å vise verdien av sammenligninger side om side med boksdiagrammer mot histogrammer

Svar

  1. Hvis jeg viser deg et histogram og spør deg hvor medianen er, kan det hende du er ganske lang tid på å finne ut … og så får du bare en tilnærming til den.Hvis jeg gjør det samme med en boxplot, har du det med en gang; hvis det er det du er interessert i, vinner boxplots åpenbart.

  2. Jeg er enig i at boxplots ikke er like effektive som en beskrivelse av distribusjonen av et enkelt utvalg, siden de reduserer det til noen få punkter, og det forteller deg ikke mye.

    Men hvis du sammenligner mange dusinvis av distribusjoner, kan alle detaljene i hver være mer informasjon enn det som er lett å sammenligne – det kan være lurt å redusere informasjonen til et mindre antall ting å sammenligne.

  3. Hvis mer informasjon er bedre, er det mange bedre valg enn histogrammet; et stengel- og bladplott, for eksempel, eller et ecdf / kvantilplott.

    Eller du kan legge til informasjon i et histogram:

histogram med marginal boxplot histogram rugplot med jitter histogram med stripediagram

( plott fra dette svaret )

Den første av dem – å legge til en smal boksplott i margen – gir deg fordeler du kan oppnå fra begge skjermbilder.

Svar

Barplott gir bare rekkevidden for observasjoner mens boksplott er bedre å fortelle hvor flere parametere for en distribusjon ligger, eksempel gjennomsnitt og avvik som stangplott ikke kan. Rutetomter brukes altså som et effektivt komparativt verktøy hvis man har flere distribusjoner.

Kommentarer

  • Det er sjelden at en boxplot viser en middel- – de bruker vanligvis medianer – og de representerer aldri avvik direkte. Vær også oppmerksom på at disse størrelsene vanligvis ikke betraktes som » parametere for en distribusjon «: de er beskrivende statistikk for et parti med data .
  • Nøyaktig, de er et fint verktøy for å beskrive en fordeling uten å gjøre for mye beregninger. Og de viser medianer mer, og siden begge målene i mange tilfeller sammenfaller, er boksplott et fint verktøy for å tilnærme gjennomsnittet også.
  • Din kommentar ser ut til å fortsette å forvirre dataene med den underliggende fordelingen . Det er veldig sjelden at gjennomsnittet tilsvarer medianen i en hvilken som helst batch med data. Videre er en av de bedre og vanligste bruken av boxplot å identifisere asymmetri, noe som vanligvis innebærer en viktig forskjell mellom gjennomsnitt og median. Et av de grunnleggende prinsippene bak den opprinnelige forestillingen om boxplot er at det er et robust utforskende verktøy – noe som innebærer at det bedre ikke er basert på sensitiv statistikk som gjennomsnitt eller varians.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *