Četl jsem knihu Tukey „Exploratory Data Analysis“. Kniha byla napsána v roce 1977 a zdůrazňuje metody papír / tužka. Existuje „modernější“ nástupce, který bere v úvahu, že nyní můžeme okamžitě vykreslovat velké datové soubory?
Komentáře
- má to být komunitní wiki?
- Je to ' s není mi jasné, zda by to mělo být CW. Možná nebudou dobré odpovědi; může existovat jedna jasná vynikající odpověď; můžeme vygenerovat dlouhý seznam účinných odpovědí. Pojďme ' s zjistit, co se stane.
- To je dobrá otázka, biofreezer. Chtěl jsem jen poznamenat, že existují podobné analogie s jinými metodami práce. Mým nejoblíbenějším je pero & papír EDA pro moderní statistiky, stejně jako ruční nástroje pro moderní zpracování dřeva. (" Moderní " dřevoobrábění využívá mnoho elektrických nástrojů, jako jsou stolní pily a směrovače, které umožňují i začátečníkům dosáhnout přijatelných výsledků za mnohem kratší dobu. , tyto nástroje také ročně představují tisíce chybějících číslic a končetin. Lidé, kteří se naučí používat ruční nástroje, se obecně učí pracovat lépe a efektivněji, i když používají elektrické nářadí.)
- Ano, zpracování dřeva je pěkná analogie (chybějící číslice, chybějící číslice). Viz také software-carpentry.org .
Odpověď
Nejbližší věc je Clevelandova vizualizace dat . Jde o průzkumnou analýzu dat, jde o počítačem generované vizualizace, je to hluboké, je to klasické.
Komentáře
- Totéž platí i pro knihu The Elements grafických dat od stejného autora. Kupte si obě; obě jsou vynikající.
Odpověď
Není to přesná replika, ale našel jsem spoustu užitečných rad při vykreslování (a R kódu) v Gelman and Hill „s analýze dat pomocí regrese a víceúrovňové / hierarchické Modely
Kromě toho je jeho blog často plný užitečných grafických rad.
Odpověď
Interaktivní grafika pro analýzu dat: Principy a příklady je jeden, který se mi líbí; popis knihy říká, že „pojednává o analýze průzkumných dat (EDA) a o tom, jak interaktivní grafické metody mohou pomoci získat přehled a také generovat nové otázky a hypotézy z datových sad.“
Odpověď
Hadley Wickhamova kniha ggplot2 je zajímavá, protože učí jak gramatiku grafiky, tak jak používat software ggplot2 .
Odpověď
Ronald Pearson „s Exploring Data in Engineering, the Vědy a medicína zde stojí za zmínku. Zdá se, že jeho hlavním cílovým čtenářem jsou vědci, kteří se nebojí trochu matematiky, kteří si přejí, aby věděli více statistik. To je docela velká skupina a jedna zde dobře zastoupená. Je „trochu nepředvídatelný a nekonvenční, ale pokrývá hodně terénu a obsahuje mnoho rozumných rad. Není to Tukey znovu navštívený v tom smyslu, že nabízí mnoho nových nápadů, ale může být prospěšné studovat, i když si myslíte je to trochu špatně.
Zdá se, že tato kniha zaujala velmi málo, pravděpodobně proto, že je velmi drahá, zjevně není vhodná jako text kurzu a zatím je k dispozici pouze v pevné verzi. Ale je to inteligentní a čitelné a bez zbytečných odpadků moderních úvodních učebnic (stránky a stránky základních cvičení, hloupé ikony, bezdůvodné fotografie šťastných mladých lidí, úzkostlivé rozložení s krabicemi, cokoli atd.).
Odpověď
Také Interaktivní a dynamická grafika pro analýzu dat: S příklady Používání R a GGobi, Cook a Swayne
Toto má dvě kapitoly veřejně dostupné na webu, které popisují proces analýzy dat a zpracování chybějících hodnot. Brzy vyjde nová kniha od Antonyho Unwina.
Odpověď
Dalšími dobrými knihami ke čtení jsou Krásná vizualizace a Krásná data. Jedná se o upravené knihy, existují neuvěřitelně dobré příklady zkoumání dat pomocí grafů a některé naprosto děsivé kapitoly.
Další kniha který má několik dobrých příkladů použití ggplot2 je nový od Winston Chang
Komentáře
- Chci jen dvakrát zkontrolovat, Di, kdyby se vloudil jemný překlep: chtěl jsi snad napsat " přitažlivý " místo " otřesných "?Ačkoli oba v tomto kontextu dávají smysl, jejich vzhled – bez dalšího vysvětlení – je spíše překvapením!
- děsení bylo správné – jedná se o smíšenou tašku – upravené svazky jsou často
- Jsem ' m překvapen těmito doporučeními. Zjistil jsem, že obě knihy jsou většinou zklamáním (dlouhé na guff, krátké na grafiku). Bohužel O ' Reilly, s nímž jsem se poprvé setkal jako vydavatel velkolepě dobrých unixových knih, vypadá, že má velmi nerovnoměrnou kontrolu kvality u knih o čemkoli, i když je vzdáleně statistický.
- Mám rád obě knihy a opravdu cítím, že jsou podstatným příspěvkem. Winston Chang ' s má mnoho základních podrobností o vykreslování pomocí ggplot2. Je to dobrá reference pro začátečníky. Neříká vám to moc o tom, proč byste tyto zápletky vytvářel, ale většina má pro tento účel smysl, z těch kousků, které jsem četl. Krásná vizualizace má několik velmi působivých kapitol, které se zabývají obtížnými problémy, jako je vizualizace wikipedie, masivní data, mnoho složitostí, a prochází procesem myšlení / rozhodnutími přijatými k vytvoření zápletek.
- Jen v případě, že můj komentář je nejednoznačné: Měl jsem na mysli " Krásné " knihy. Kniha Winstona Changa ' je milá a užitečná.
Odpověď
Myslím, že Pochopení robustní a průzkumné analýzy od Hoaglina, Mostellera a Tukeyho je doprovodným svazkem průzkumu datových tabulek a tvarů jako technické pokračování EDA. Vidím také analýzu dat a regresi, druhý kurz statistik Mosteller a Tukey v návaznosti na EDA. Různé výše uvedené knihy Cleveland jsou poklady.