A hisztogramok jól érzékelik a változó eloszlását. A dobozdiagramok ugyanezt próbálják megtenni, de nem adnak olyan jó képet ennek a változónak az eloszlásáról.

Nem értem, miért használják az emberek a dobozos ábrákat. A hisztogramok minden szempontból jobbak. Van valami oka annak, hogy mindkettőjüket használnám?

Az egyetlen dolog, amit szerintem a dobozos cselekmények nyújtanak: a kiugró értékek! Megmondja, hogy mely megfigyelések lehetnek kirívóbbak.

Megjegyzések

  • A hisztogram minden szempontból rosszabb, mint a teljes eloszlás ábrázolása?
  • Attól függ, hogy mit akar, egy meződiagramm segítségével megadhat néhány pontos értéket (pl. medián, P75), amelyek nincsenek hisztogrammal. Kevesebb információt jelenít meg, de szintetikusabb. Állításom szerint még a hisztogram is egyszerűsítés és információpazarlás az egész eloszláshoz képest. De könnyebb használni
  • A hisztogramok hasznosságával kapcsolatos ellentétes álláspontot meggyőzően fogalmazták meg és jól szemléltették a magasan felkapott bejegyzésben a stats .stackexchange.com / a / 51753 (amely megtalálható a ” hisztogram ” keresésével).
  • Érdekes gondolat – de a tároló méretének növelésével a hisztogram boxplot-szerű alakúra redukálódna, miközben megmarad a sajnálatos függése a vágási pontok választásától. IMHO, a boxplotok valódi érdemeit a legjobban akkor értékelhetjük, ha tanulmányozzuk Tukey ‘ N-betűs összefoglaló használatát a többváltozós adatok feltáró elemzéséhez, és emlékezünk arra, hogy ceruzával és papírral számolt akkor. Az olyan vizualizációkhoz, mint egy ” vándorló vázlatos nyom “, a feltételes válaszok más, egyváltozós összefoglalói, például a hisztogramok vagy a hegedűs ábrák, egyszerűen nem működnek.
  • A hisztogram két hibája (imo) akkor történik, ha kevés minta van, vagy ha a dobozok mérete nem megfelelő. A jó boxplot gyengesége (és én ‘ gondolkodom a JMP változékonyságán, amikor ezt mondom) a multimodalitás és a finom részletek. Az egyik hely, ahol a boxplot ragyog, az az, amikor kevés minta van. Tetszik nekem az is, ha számos egymással kölcsönhatásban álló változó van különböző szinteken – így a JMP variabilitási ábrája.

Válasz

Bizonyos esetekben előnynek tekinthető az a tény is, hogy a négyzetdiagramok többet nyújtanak az eloszlás összefoglalásáról. Néha, amikor összehasonlítjuk az eloszlásokat, nem a teljes alakra törekszünk, hanem arra, hogy hol vannak az eloszlások egymás vonatkozásában. A kvantilisek egymás mellé történő ábrázolása hasznos módja lehet ennek, anélkül, hogy elterelnénk a figyelmünket más olyan részletekről, amelyek esetleg nem érdekelnek bennünket.

Megjegyzések

  • Ez a legjobb válasz. A boxplotok jobban hasonlítanak az eloszlásokhoz, mint a hisztogramok!

Válasz

Egyváltozós esetben a box-plotok biztosítják néhány információ, amelyet a hisztogram nem (legalábbis nem kifejezetten). Vagyis tipikusan a medián, a 25. és a 75. percentilis, a min / max értéket adja meg, amely nem kiugró érték, és kifejezetten elválasztja a kiugrónak tekintett pontokat. Mindez a hisztogramból “szemgolyózható” (és jobb lehet, ha a szélsőségeseknél szemezünk).

A sokkal nagyobb előny azonban az, ha egyszerre hasonlítjuk össze a különböző csoportok közötti eloszlásokat. 10+ csoportnál ez fárasztó feladat egymás melletti hisztogramokkal, de nagyon egyszerű a dobozdiagramokkal.

Mint említetted, a hegedűs parcellák (vagy a babos cselekmények) valamivel informatívabb alternatívák. Ehhez azonban valamivel több statisztikai ismeretre van szükségük, mint a boxdiagramok (vagyis ha nem statisztikai közönségnek mutatják be, akkor egy kicsit félelmetesebbek lehetnek), és a box-plot-ok jóval hosszabbak voltak, mint a kernelsűrűség-becslők, ezért nagyobb népszerűségük.

Megjegyzések

  • +1. Helyesbítés, a box-plotok mediánokat jelentenek, nem eszközöket.
  • Mindenkinek igaza lehet. A rendszerint ábrázolt dobozdiagramok mediánokat mutatnak (én ‘ láttam, hogy ezt tagadják, de nem emlékszem, hogy láttam volna példát). De egyes megvalósítások lehetővé teszik az eszközök megmutatását is. Ez ‘ gyakran jó ötlet.
  • Köszönjük, hogy felhívta erre a figyelmet. (Helytelenül) azt gondolom, hogy ‘ ez általában az átlag, ami extrém esetekben nagyon furcsa cselekményekhez vezethet.
  • jó lenne, ha lennének képek ezzel együtt megmutatva a box-diagramokkal és hisztogramokkal való összehasonlítás értékét

Válasz

  1. Ha megmutatok egy hisztogramot, és megkérdezem, hol van a medián, akkor meglehetõsen hosszú ideje lesz kitalálni … és akkor csak hozzávetõleg hozzá fog férni hozzá.Ha ugyanezt teszem egy dobozos ábrával, akkor azonnal megvan; ha ez érdekli Önt, akkor a boxplots nyilvánvalóan nyer.

  2. Egyetértek azzal, hogy a boxplots nem annyira hatékony, mint a terjesztés leírása egyetlen mintából, mivel néhány pontra redukálják, és ez nem mond sokat.

    Ha azonban sok tucat disztribúciót hasonlítasz össze, akkor az több információ, mint amennyit könnyen összehasonlíthatunk – érdemes lehet összehasonlítani az információkat egy kisebb számú dologra.

  3. Ha több információ jobb, akkor sokkal jobb választási lehetőségek vannak, mint a hisztogram; például szár- és levéldiagram, vagy ecdf / kvantilis-diagram.

    Vagy hozzáadhat információkat a hisztogramhoz:

hisztogram peremdobozzal hisztogram rugplot jitterrel hisztogram szalaggal

( ábrák ezt a választ )

Ezek közül az első – egy keskeny boxplot hozzáadása a margóhoz – bármilyen előnyhöz jut bármelyik kijelzőről.

Válasz

Az oszlopdiagramok csak a megfigyelések gyakoriságának tartományát adják meg, míg a négyzetdiagramok jobban megmondják, hogy hol található több Az eloszlás paraméterei hazugság, példa átlag és variancia, amelyeket a sávdiagramok nem tudnak. A dobozdiagramokat tehát hatékony összehasonlító eszközként használják, ha az egyiknek több eloszlása van.

Megjegyzések

  • Ritkán fordul elő, hogy a boxplot átlagot mutat – szinte mindig mediánokat használnak – és ezek soha nem jelentik közvetlenül a varianciákat. Ne feledje, hogy ezeket a mennyiségeket általában nem tekintik egy ” eloszlás paramétereinek “: ezek leíró statisztikák egy köteg adathoz .
  • Pontosan, ezek egy szép eszköz egy disztribúció leírásához anélkül, hogy túl sok számítást végeznének. És többet mutatnak a mediánok, és mivel sok esetben mindkét mérték egybeesik, a négyzetdiagramok is jó eszközök az átlag közelítésére.
  • Úgy tűnik, hogy a megjegyzésed továbbra is összekeveri az adatokat az mögöttes eloszlással . Nagyon ritka, hogy az átlag bármely adatcsomagban megegyezzen a mediánnal. Ezenkívül a boxplot egyik jobb és leggyakoribb felhasználása az aszimmetria azonosítása, amely általában fontos különbséget jelent az átlag és a medián között. A boxplot eredeti koncepciójának egyik alapelve az, hogy robusztus feltáró eszköz legyen – ami azt jelenti, hogy jobb, ha nem olyan érzékeny statisztikákon alapul, mint az átlag vagy a szórás.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük