Jeg har læst Tukeys bog “Exploratory Data Analysis”. Bogen blev skrevet i 1977 og fremhæver papir / blyantmetoder. Er der en mere “moderne” efterfølger, der tager højde for, at vi nu øjeblikkeligt kan plotte store datasæt?
Kommentarer
- skal dette være community-wiki?
- Det ' s ikke klart for mig, om dette burde være CW. Der er muligvis ingen gode svar; der kan være et klart udestående svar; vi kan generere en lang liste over effektive svar. Lad ' se, hvad der sker.
- Dette er et godt spørgsmål, biofreezer. Jeg ville bare bemærke, at der er nære analogier til andre arbejdsmetoder. Min favorit er, at pen & papir EDA er for moderne statistik, da håndværktøj er for moderne træbearbejdning. (" Moderne " træbearbejdning anvender mange elektriske værktøjer som bordsave og routere, der gør det muligt for selv begyndere at vise acceptable resultater på meget kortere tid. , disse værktøjer tegner sig også for tusinder af manglende cifre og lemmer hvert år. Folk, der lærer at bruge håndværktøj, lærer generelt at arbejde bedre og mere effektivt, selv når de anvender elværktøj.)
- Ja, træbearbejdning er en flot analogi (manglende cifre, manglende cifre). Se også software-carpentry.org .
Svar
Det tætteste er Cleveland” s Visualisering af data . Det handler om sonderende dataanalyse, det handler om computergenererede visualiseringer, det er dybtgående, det er klassisk.
Kommentarer
- Det samme gælder også for bogen The Elements af tegningsdata af samme forfatter. Køb dem begge; de er begge fremragende.
Svar
Nå, det er ikke en nøjagtig replika, men jeg fandt masser af nyttige plotterådgivning (og R-kode) i Gelman og Hill “s Dataanalyse ved hjælp af regression og multilevel / hierarkisk Modeller
Derudover er hans blog ofte fuld af nyttige råd om grafik.
Svar
Interaktiv grafik til dataanalyse: Principper og eksempler er en, jeg kan lide; bogbeskrivelsen siger, at den “diskuterer sonderende dataanalyse (EDA), og hvordan interaktive grafiske metoder kan hjælpe med at få indsigt samt generere nye spørgsmål og hypoteser fra datasæt.”
Svar
Hadley Wickhams ggplot2-bog er interessant, fordi den lærer både grafikgrammatikken og hvordan man bruger ggplot2-softwaren .
Svar
Ronald Pearson “s Udforskning af data inden for teknik, Videnskab og medicin er værd at nævne her. Dens vigtigste mållæserskare ser ud til at være forskere, der ikke er bange for lidt matematik, der ønsker, at de kendte mere statistik. Det er en ganske stor gruppe og en godt repræsenteret her. Det er en smule skæve og uovertrufne, men det dækker en masse jord, og det indeholder meget fornuftigt råd. Det er ikke Tukey igen i den forstand, at det giver mange nye ideer, men det kan være givende at studere, selv når du tænker det er lidt forkert.
Denne bog ser ud til at have tiltrukket sig meget lidt opmærksomhed, muligvis fordi den er meget dyr, ikke åbenlyst velegnet som kursustekst og endnu kun tilgængelig i hardback. Men det er intelligent og læsbart og frit for affaldet i moderne indledende lærebøger (sider og sider med elementære øvelser, fjollede ikoner, umotiverede fotos af glade unge mennesker, nøjeregnende layout med kasser, hvad som helst osv.).
Svar
Også Interaktiv og dynamisk grafik til dataanalyse: Med eksempler Brug af R og GGobi, Cook og Swayne
Dette har to kapitler offentligt tilgængelige på nettet, der beskriver processen med dataanalyse og håndtering af manglende værdier. Der “kommer snart en ny bog af Antony Unwin.
Svar
Et andet par gode bøger at læse er Smuk visualisering og smukke data. Disse er redigerede bøger, der er utroligt gode eksempler på at udforske data med plots og nogle helt rystende kapitler.
En anden bog der har nogle gode eksempler på brug af ggplot2 er en ny af Winston Chang
Kommentarer
- Jeg vil bare dobbelttjekke, Di, hvis en subtil skrivefejl sneg sig ind: mente du måske at skrive " tiltalende " i stedet for " rystende "?Selvom begge giver mening i denne sammenhæng, er udseendet af sidstnævnte – uden yderligere forklaring – snarere en overraskelse!
- rystende var korrekt – det er en blandet taske – redigerede bind er ofte
- Jeg ' er overrasket over disse anbefalinger. Jeg fandt begge bøger for det meste skuffende (lang på guff, kort på grafik). Desværre synes O ' Reilly, som jeg først stødte på som udgiver af spektakulært gode Unix-bøger, at have meget ujævn kvalitetskontrol for bøger på noget, der endog fjernt statistisk.
- Jeg kan godt lide begge bøger og føler virkelig, at de er betydelige bidrag. Winston Chang ' s har mange grundlæggende detaljer om planlægning med ggplot2. Det er en god begynderreference. Det fortæller dig ikke meget om, hvorfor du ville lave disse plot, men de fleste giver god mening til formålet ud fra de stykker, jeg har læst. Den smukke visualisering har nogle meget imponerende kapitler, der tackler vanskelige problemer som visualisering af wikipedia, massive data, mange kompleksiteter, og det går igennem tankeprocessen / de beslutninger, der er taget for at lave plottene. tvetydig: Jeg henviste til " Smukke " bøger. Winston Chang ' s bog er pæn og hjælpsom.
Svar
Jeg tænker på Forståelse af robust og udforskende analyse af Hoaglin, Mosteller og Tukey og ledsagervolumenet om at udforske datatabeller og figurer som den tekniske opfølgning på EDA. Jeg ser også dataanalyse og regression, et andet kursus i statistik af Mosteller og Tukey som opfølgning på EDA. De forskellige Cleveland-bøger, der er nævnt ovenfor, er skatte.