Histogram ger en bra känsla för fördelningen av en variabel. Boxplottar försöker dock göra samma sak, men ge inte så bra en bild av fördelningen av denna variabel.

Jag förstår inte varför människor använder rutor. Histogram är bättre på alla sätt. Finns det en anledning till att jag skulle använda dem båda?

Det enda jag tror att lådtomter ger är: outliers! Det berättar vilka observationer som kan vara avvikande.

Kommentarer

  • Är histogram sämre på alla sätt än en representation av hela fördelningen?
  • Beror på vad du vill, med en ruttdiagram kan du ha några exakta värden (t.ex. median, P75) som du inte har med ett histogram. Den visar mindre information, men är mer syntetisk. Min poäng är att även ett histogram är en förenkling och slöseri med information jämfört med hela distributionen. Men det kan vara lättare att använda
  • En motsatt syn på nyttan av histogram har uttryckts och tydligt illustrerats i det högt uppgraderade inlägget på stats .stackexchange.com / a / 51753 (som kan hittas genom att söka på vår webbplats för ” histogram ”).
  • Intressant tanke – men att öka pappersstorleken skulle minska histogrammet till en boxplotliknande figur samtidigt som det olyckliga beroendet av valet av klipppunkter bibehålls. IMHO, de verkliga fördelarna med boxplots kan bäst uppskattas genom att studera Tukey ’ s användning av N-bokstavssammanfattningen för utforskande analys av multivariata data och komma ihåg att han beräknade med penna och papper just då. För visualiseringar som en ” vandringsschematisk spårning ” andra univariata sammanfattningar av villkorliga svar, som histogram eller fioldiagram, skulle helt enkelt inte fungera.
  • Histogrammets två fel (imo) inträffar när det finns få prover eller när rutorna har fel storlek. Svagheten i en bra boxplot (och jag ’ tänker JMP-variabilitet när jag säger det) är multimodalitet och fina detaljer. En plats där boxplot lyser är när det är få prover. Jag gillar det också när det finns ett antal interagerande variabler på olika nivåer – alltså JMP-variabilitetsdiagrammet.

Svar

Det faktum att rutor visar mer av en sammanfattning av en distribution kan också ses som en fördel i vissa fall. Ibland när vi jämför distributioner bryr vi oss inte om den övergripande formen, utan snarare var fördelningarna ligger i förhållande till varandra. Att plotta kvantilerna sida vid sida kan vara ett användbart sätt att göra detta utan att distrahera oss med andra detaljer som vi kanske inte bryr oss om.

Kommentarer

  • Detta är det bästa svaret. Boxplots är bättre för att jämföra distributioner än histogram!

Svar

I det univariata fallet ger box-plots viss information som histogrammet inte gör (åtminstone inte uttryckligen). Det vill säga, det ger vanligtvis median, 25: e och 75: e percentilen, min / max som inte är en outlier och separerar uttryckligen de punkter som betraktas som outliers. Allt detta kan vara ”ögonglobat” från histogrammet (och det kan vara bättre att vara ögonglobat när det gäller outliers).

Den mycket större fördelen är dock att jämföra fördelningar över många olika grupper samtidigt. Med 10+ grupper är detta en tröttsam uppgift med histogram sida vid sida, men väldigt enkelt med rutor.

Som ni nämnde är fiolplottar (eller böntomter) något mer informativa alternativ. De kräver emellertid lite mer statistisk kunskap än rutorna (dvs. om de presenteras för en icke-statistisk publik kan det vara lite mer skrämmande) och kartritningar har funnits mycket längre än kärndensitetsuppskattare, därav deras större popularitet.

Kommentarer

  • +1. Korrigering men box-tomter ger medianer, inte medel.
  • Alla kan ha rätt. Rutor som vanligt ritade visar medianer (jag ’ har sett detta nekas, men minns inte att ha sett ett exempel). Men vissa implementeringar gör att du också kan visa medel. Att ’ ofta är en bra idé.
  • Tack för att du påpekade det. Jag fortsätter (felaktigt) att tänka att det ’ vanligtvis är medelvärdet, vilket i extrema fall kan leda till några väldigt konstiga tomter.
  • skulle vara trevligt om det fanns bilder för att följa detta för att visa värdet av jämförelser sida vid sida med rutor mot histogram

Svar

  1. Om jag visar dig ett histogram och frågar var medianen är, kanske du är ganska lång tid att räkna ut det … och då får du bara en approximation till det.Om jag gör samma sak med en boxplot har du det omedelbart; om det är det du är intresserad av, så får boxplots självklart.

  2. Jag håller med om att boxplots inte är lika effektiva som en beskrivning av distributionen av ett enda prov, eftersom de reducerar det till några punkter och det säger inte mycket.

    Men om du jämför flera dussintals distributioner kan alla detaljer i varje vara mer information än vad som är lätt att jämföra – du kanske vill minska informationen till ett mindre antal saker att jämföra.

  3. Om mer information är bättre finns det många bättre val än histogrammet; till exempel en stam- och bladritning eller en ecdf / kvantitetsdiagram.

    Eller så kan du lägga till information i ett histogram:

histogram med marginal boxplot histogram rugplot med jitter histogram med remschema

( tomter från det här svaret )

Den första av dem – att lägga till en smal boxplot i marginalen – ger dig några fördelar som du kan vinna från endera skärmen.

Svar

Bardiagram ger endast intervallet för observationer medan rutor är bättre att säga var flera parametrar för en distribution ligger, exempel medelvärde och avvikelser som staplar inte kan. Boxplottar används alltså som ett effektivt jämförande verktyg om man har flera fördelningar.

Kommentarer

  • Det är sällsynt att en boxplot visar ett medel- -vanligtvis använder de alltid medianer – och de representerar aldrig avvikelser direkt. Observera också att dessa kvantiteter vanligtvis inte anses vara ” parametrar för en distribution ”: de är beskrivande statistik för en sats med data .
  • Exakt, de är ett trevligt verktyg för att beskriva en distribution utan att göra för mycket beräkningar. Och de visar medianer mer, och eftersom båda måtten i många fall sammanfaller är rutor som ett bra verktyg för att ungefärliga medelvärdet också.
  • Din kommentar verkar fortsätta att förvirra data med den underliggande distributionen . Det är mycket sällsynt att medelvärdet är lika med medianen i någon sats av data. Dessutom är en av de bättre och vanligaste användningarna av boxplot att identifiera asymmetri, vilket vanligtvis innebär en viktig skillnad mellan medelvärde och median. En av de grundläggande principerna bakom den ursprungliga uppfattningen om boxplot är att det är ett robust utforskande verktyg – vilket innebär att det bättre inte ska baseras på känslig statistik som medelvärdet eller variansen.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *