Histogramele dau un bun simț al distribuției unei variabile. Totuși, graficele de cutii încearcă să facă același lucru, nu da la fel de bine o imagine a distribuției acestei variabile.

Nu înțeleg de ce oamenii folosesc graficele de cutie. Histogramele sunt mai bune din toate punctele de vedere. Există vreun motiv pentru care le-aș folosi pe amândouă?

Singurul lucru pe care cred că îl oferă parcela în cutii este: valori aberante! Ne spune care sunt observațiile care pot fi anormale.

Comentarii

  • Este histograma mai proastă în toate privințele decât o reprezentare a întregii distribuții?
  • Depinde de ceea ce doriți, cu un grafic de casetă puteți avea câteva valori precise (de exemplu, mediană, P75), pe care nu le aveți cu o histogramă. Afișează mai puține informații, dar este mai sintetic. Ideea mea este că chiar și o histogramă este o simplificare și o risipă de informații în comparație cu întreaga distribuție. Dar poate fi mai ușor de utilizat.
  • Un punct de vedere contrar cu privire la utilitatea histogramelor a fost exprimat în mod convingător și bine ilustrat, în postarea extrem de apreciată la statistici .stackexchange.com / a / 51753 (care poate fi găsit căutând pe site-ul nostru ” histograma „).
  • Gândire interesantă – dar mărirea dimensiunii coșului ar reduce histograma la o figură asemănătoare unui boxplot, păstrându-și în același timp dependența nefericită de alegerea punctelor de tăiere. IMHO, meritele reale ale boxploturilor pot fi apreciate cel mai bine prin studierea utilizării de către Tukey ‘ a utilizării rezumatului literelor N pentru analiza exploratorie a datelor multivariate și amintind că el calcula cu creion și hârtie atunci. Pentru vizualizări precum o ” urmărire schematică rătăcitoare ” alte rezumate univariate ale răspunsurilor condiționate, cum ar fi histograme sau comploturi de vioară, pur și simplu nu ar funcționa.
  • Cele două defecțiuni (imo) ale histogramei se întâmplă atunci când există puține eșantioane sau când casetele au dimensiunile greșite. Punctul slab al unui bun boxplot (și eu ‘ mă gândesc la variabilitatea JMP atunci când îl spun) sunt multi-modalitate și detalii fine. Un loc în care străluceste boxplot este atunci când există puține probe. Îmi place și atunci când există o serie de variabile care interacționează la diferite niveluri – deci graficul de variabilitate JMP.

Răspuns

Faptul că graficele de tip casetă oferă mai mult un rezumat al unei distribuții poate fi văzut și ca un avantaj în anumite cazuri. Uneori, când comparăm distribuțiile, nu ne pasă de forma generală, ci mai degrabă unde se află distribuțiile unul față de celălalt. Complotarea cuantilelor unul lângă altul poate fi o modalitate utilă de a face acest lucru fără a ne distrage atenția cu alte detalii care ar putea să nu ne intereseze.

Comentarii

  • Acesta este cel mai bun răspuns. Boxplot-urile sunt mai bune pentru compararea distribuțiilor decât histogramele!

Răspuns

În cazul univariat, diagramele box oferă unele informații pe care histograma nu le face (cel puțin, nu în mod explicit). Adică, oferă în mod obișnuit mediana, a 25-a și a 75-a percentilă, min / max, care nu este o valoare anterioară și separă în mod explicit punctele care sunt considerate valori anterioare. Toate acestea pot fi „oculare” din histogramă (și poate fi mai bine să fie oculare în cazul valorilor aberante).

Cu toate acestea, avantajul mult mai mare constă în compararea distribuțiilor între mai multe grupuri diferite simultan. Cu 10+ grupuri, aceasta este o sarcină obositoare cu histograme cot la cot, dar foarte ușor cu graficele cutiei.

După cum ați menționat, parcelele pentru vioară (sau parcelele de fasole) sunt alternative ceva mai informative. Cu toate acestea, acestea necesită cunoștințe statistice puțin mai mari decât graficele cutiei (de exemplu, dacă se prezintă unui public nestatistic, poate fi puțin mai intimidant), iar graficele cutiei au fost mult mai lungi decât estimatorii densității nucleului, de unde și popularitatea lor mai mare.

Comentarii

  • +1. Corecție, totuși, graficele box oferă mediane, nu mijloace.
  • Toată lumea poate avea dreptate. Graficele în cutii, așa cum sunt reprezentate în mod obișnuit, prezintă mediane (eu ‘ am văzut acest lucru refuzat, dar nu-mi amintesc să fi văzut un exemplu). Dar unele implementări vă permit să arătați și mijloace. ‘ este adesea o idee bună.
  • Vă mulțumim că ați subliniat acest lucru. Mă tot gândesc (incorect) că ‘ este, de obicei, media, ceea ce ar putea duce la unele comploturi foarte ciudate în cazuri extreme.
  • ar fi bine dacă ar exista imagini să mergeți împreună cu aceasta pentru a arăta comparațiile alăturate cu graficele de cutie față de histograme

Răspuns

  1. Dacă îți arăt o histogramă și te întreb unde este mediana, s-ar putea să-ți dai seama destul de mult … și atunci vei primi doar o aproximare la ea.Dacă fac același lucru cu un boxplot, îl aveți imediat; dacă asta vă interesează, boxploturile câștigă în mod evident.

  2. Sunt de acord că boxploturile nu sunt la fel de eficiente ca o descriere a distribuției dintr-un singur eșantion, deoarece îl reduc la câteva puncte și asta nu vă spune multe.

    Cu toate acestea, dacă comparați multe zeci de distribuții, este posibil să aveți toate detaliile fiecăruia. mai multe informații decât se compară ușor – poate doriți să reduceți informațiile la un număr mai mic de lucruri de comparat.

  3. Dacă mai multe informații sunt mai bune, există multe alegeri mai bune decât histograma; un grafic de tulpini și frunze, de exemplu, sau un grafic ecdf / cuantil.

    Sau puteți adăuga informații la o histogramă:

histogramă cu boxplot marginal histogramă rugplot cu jitter histogramă cu diagrame

( comploturi din acest răspuns )

Primul dintre acestea – adăugarea unui boxplot îngust la margine – vă oferă orice beneficii de obținut de pe oricare dintre afișaje.

Răspuns

Graficele cu bare oferă doar intervalul de frecvență al observațiilor, în timp ce graficele cu casete sunt mai bune în a afla unde mai multe parametrii unei distribuții se află, exemplu de medie și varianțe pe care graficele de bare nu le pot. Graficele de cutie sunt astfel utilizate ca un instrument comparativ eficient dacă unul are mai multe distribuții.

Comentarii

  • Este rar ca un boxplot să afișeze o medie -aproape întotdeauna folosesc mediane – și nu niciodată reprezintă varianțe direct. Rețineți, de asemenea, că aceste cantități nu sunt de obicei considerate parametrii ” ai unei distribuții „: sunt statistici descriptive pentru un lot de date .
  • Exact, acestea sunt un instrument frumos pentru a descrie o distribuție fără a face prea multe calcule. Și afișează mediane mai mult și, întrucât, în multe cazuri, ambele măsuri coincid, graficele de cutie sunt un instrument frumos pentru a aproxima și media.
  • Comentariul tău pare să continue să confunde datele cu distribuția subiacentă . Este foarte rar ca media să fie egală cu mediana în orice lot de date. Mai mult, una dintre cele mai bune și mai frecvente utilizări ale boxplot-ului este identificarea asimetriei, ceea ce implică de obicei o diferență importantă între medie și mediană. Unul dintre principiile fundamentale care stau la baza concepției originale a boxplot-ului este că acesta este un instrument explorator robust – ceea ce implică mai bine să nu se bazeze pe statistici sensibile, cum ar fi media sau varianța.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *