A hisztogramok jól érzékelik a változó eloszlását. A dobozdiagramok ugyanezt próbálják megtenni, de nem adnak olyan jó képet ennek a változónak az eloszlásáról.
Nem értem, miért használják az emberek a dobozos ábrákat. A hisztogramok minden szempontból jobbak. Van valami oka annak, hogy mindkettőjüket használnám?
Az egyetlen dolog, amit szerintem a dobozos cselekmények nyújtanak: a kiugró értékek! Megmondja, hogy mely megfigyelések lehetnek kirívóbbak.
Megjegyzések
- A hisztogram minden szempontból rosszabb, mint a teljes eloszlás ábrázolása?
- Attól függ, hogy mit akar, egy meződiagramm segítségével megadhat néhány pontos értéket (pl. medián, P75), amelyek nincsenek hisztogrammal. Kevesebb információt jelenít meg, de szintetikusabb. Állításom szerint még a hisztogram is egyszerűsítés és információpazarlás az egész eloszláshoz képest. De könnyebb használni
- A hisztogramok hasznosságával kapcsolatos ellentétes álláspontot meggyőzően fogalmazták meg és jól szemléltették a magasan felkapott bejegyzésben a stats .stackexchange.com / a / 51753 (amely megtalálható a ” hisztogram ” keresésével).
- Érdekes gondolat – de a tároló méretének növelésével a hisztogram boxplot-szerű alakúra redukálódna, miközben megmarad a sajnálatos függése a vágási pontok választásától. IMHO, a boxplotok valódi érdemeit a legjobban akkor értékelhetjük, ha tanulmányozzuk Tukey ‘ N-betűs összefoglaló használatát a többváltozós adatok feltáró elemzéséhez, és emlékezünk arra, hogy ceruzával és papírral számolt akkor. Az olyan vizualizációkhoz, mint egy ” vándorló vázlatos nyom “, a feltételes válaszok más, egyváltozós összefoglalói, például a hisztogramok vagy a hegedűs ábrák, egyszerűen nem működnek.
- A hisztogram két hibája (imo) akkor történik, ha kevés minta van, vagy ha a dobozok mérete nem megfelelő. A jó boxplot gyengesége (és én ‘ gondolkodom a JMP változékonyságán, amikor ezt mondom) a multimodalitás és a finom részletek. Az egyik hely, ahol a boxplot ragyog, az az, amikor kevés minta van. Tetszik nekem az is, ha számos egymással kölcsönhatásban álló változó van különböző szinteken – így a JMP variabilitási ábrája.
Válasz
Bizonyos esetekben előnynek tekinthető az a tény is, hogy a négyzetdiagramok többet nyújtanak az eloszlás összefoglalásáról. Néha, amikor összehasonlítjuk az eloszlásokat, nem a teljes alakra törekszünk, hanem arra, hogy hol vannak az eloszlások egymás vonatkozásában. A kvantilisek egymás mellé történő ábrázolása hasznos módja lehet ennek, anélkül, hogy elterelnénk a figyelmünket más olyan részletekről, amelyek esetleg nem érdekelnek bennünket.
Megjegyzések
- Ez a legjobb válasz. A boxplotok jobban hasonlítanak az eloszlásokhoz, mint a hisztogramok!
Válasz
Egyváltozós esetben a box-plotok biztosítják néhány információ, amelyet a hisztogram nem (legalábbis nem kifejezetten). Vagyis tipikusan a medián, a 25. és a 75. percentilis, a min / max értéket adja meg, amely nem kiugró érték, és kifejezetten elválasztja a kiugrónak tekintett pontokat. Mindez a hisztogramból “szemgolyózható” (és jobb lehet, ha a szélsőségeseknél szemezünk).
A sokkal nagyobb előny azonban az, ha egyszerre hasonlítjuk össze a különböző csoportok közötti eloszlásokat. 10+ csoportnál ez fárasztó feladat egymás melletti hisztogramokkal, de nagyon egyszerű a dobozdiagramokkal.
Mint említetted, a hegedűs parcellák (vagy a babos cselekmények) valamivel informatívabb alternatívák. Ehhez azonban valamivel több statisztikai ismeretre van szükségük, mint a boxdiagramok (vagyis ha nem statisztikai közönségnek mutatják be, akkor egy kicsit félelmetesebbek lehetnek), és a box-plot-ok jóval hosszabbak voltak, mint a kernelsűrűség-becslők, ezért nagyobb népszerűségük.
Megjegyzések
- +1. Helyesbítés, a box-plotok mediánokat jelentenek, nem eszközöket.
- Mindenkinek igaza lehet. A rendszerint ábrázolt dobozdiagramok mediánokat mutatnak (én ‘ láttam, hogy ezt tagadják, de nem emlékszem, hogy láttam volna példát). De egyes megvalósítások lehetővé teszik az eszközök megmutatását is. Ez ‘ gyakran jó ötlet.
- Köszönjük, hogy felhívta erre a figyelmet. (Helytelenül) azt gondolom, hogy ‘ ez általában az átlag, ami extrém esetekben nagyon furcsa cselekményekhez vezethet.
- jó lenne, ha lennének képek ezzel együtt megmutatva a box-diagramokkal és hisztogramokkal való összehasonlítás értékét
Válasz
-
Ha megmutatok egy hisztogramot, és megkérdezem, hol van a medián, akkor meglehetõsen hosszú ideje lesz kitalálni … és akkor csak hozzávetõleg hozzá fog férni hozzá.Ha ugyanezt teszem egy dobozos ábrával, akkor azonnal megvan; ha ez érdekli Önt, akkor a boxplots nyilvánvalóan nyer.
-
Egyetértek azzal, hogy a boxplots nem annyira hatékony, mint a terjesztés leírása egyetlen mintából, mivel néhány pontra redukálják, és ez nem mond sokat.
Ha azonban sok tucat disztribúciót hasonlítasz össze, akkor az több információ, mint amennyit könnyen összehasonlíthatunk – érdemes lehet összehasonlítani az információkat egy kisebb számú dologra.
-
Ha több információ jobb, akkor sokkal jobb választási lehetőségek vannak, mint a hisztogram; például szár- és levéldiagram, vagy ecdf / kvantilis-diagram.
Vagy hozzáadhat információkat a hisztogramhoz:
( ábrák ezt a választ )
Ezek közül az első – egy keskeny boxplot hozzáadása a margóhoz – bármilyen előnyhöz jut bármelyik kijelzőről.
Válasz
Az oszlopdiagramok csak a megfigyelések gyakoriságának tartományát adják meg, míg a négyzetdiagramok jobban megmondják, hogy hol található több Az eloszlás paraméterei hazugság, példa átlag és variancia, amelyeket a sávdiagramok nem tudnak. A dobozdiagramokat tehát hatékony összehasonlító eszközként használják, ha az egyiknek több eloszlása van.
Megjegyzések
- Ritkán fordul elő, hogy a boxplot átlagot mutat – szinte mindig mediánokat használnak – és ezek soha nem jelentik közvetlenül a varianciákat. Ne feledje, hogy ezeket a mennyiségeket általában nem tekintik egy ” eloszlás paramétereinek “: ezek leíró statisztikák egy köteg adathoz .
- Pontosan, ezek egy szép eszköz egy disztribúció leírásához anélkül, hogy túl sok számítást végeznének. És többet mutatnak a mediánok, és mivel sok esetben mindkét mérték egybeesik, a négyzetdiagramok is jó eszközök az átlag közelítésére.
- Úgy tűnik, hogy a megjegyzésed továbbra is összekeveri az adatokat az mögöttes eloszlással . Nagyon ritka, hogy az átlag bármely adatcsomagban megegyezzen a mediánnal. Ezenkívül a boxplot egyik jobb és leggyakoribb felhasználása az aszimmetria azonosítása, amely általában fontos különbséget jelent az átlag és a medián között. A boxplot eredeti koncepciójának egyik alapelve az, hogy robusztus feltáró eszköz legyen – ami azt jelenti, hogy jobb, ha nem olyan érzékeny statisztikákon alapul, mint az átlag vagy a szórás.