Jeg har lest Tukeys bok «Exploratory Data Analysis». Boken ble skrevet i 1977 og legger vekt på papir / blyantmetoder. Er det en mer «moderne» etterfølger som tar hensyn til at vi nå umiddelbart kan plotte store datasett?

Kommentarer

  • skal dette være community-wiki?
  • Det ' s ikke klart for meg om dette burde være CW. Det er kanskje ingen gode svar; det kan være ett klart utestående svar; vi kan generere en lang liste med effektive svar. La ' se hva som skjer.
  • Dette er et godt spørsmål, biofrys. Jeg ville bare bemerke at det er nære analogier til andre arbeidsmetoder. Min favoritt er at penn & papir EDA er for moderne statistikk som håndverktøy er for moderne trebearbeiding. (" Moderne " trebearbeiding bruker mange elektroverktøy som bordsager og rutere som gjør det mulig for nybegynnere å vise akseptable resultater på mye kortere tid. , disse verktøyene utgjør også tusenvis av manglende sifre og lemmer hvert år. Folk som lærer å bruke håndverktøy, lærer vanligvis å jobbe bedre og mer effektivt selv når de bruker elektroverktøy.)
  • Ja, trebearbeiding er en fin analogi (manglende sifre, manglende sifre). Se også software-carpentry.org .

Svar

Det nærmeste er Cleveland» s Visualisering av data . Det handler om sonderende dataanalyse, det handler om datorgenererte visualiseringer, det er dyptgående, det er klassisk.

Kommentarer

  • Det samme gjelder også boken The Elements av grafiske data av samme forfatter. Kjøp dem begge; de er begge gode.

Svar

Vel, det er ikke en eksakt kopi, men jeg fant massevis av nyttige plotteråd (og R-kode) i Gelman og Hill «s Dataanalyse ved bruk av regresjon og flernivå / hierarkisk Modeller

I tillegg er bloggen hans ofte full av nyttige råd om grafikk.

Svar

Interaktiv grafikk for dataanalyse: Prinsipper og eksempler er en jeg liker; bokbeskrivelsen sier at den «diskuterer utforskende dataanalyse (EDA) og hvordan interaktive grafiske metoder kan bidra til å få innsikt, samt generere nye spørsmål og hypoteser fra datasett.»

Svar

Hadley Wickhams ggplot2-bok er interessant fordi den lærer både grafikkgrammatikken og hvordan du bruker programvaren ggplot2 .

Svar

Ronald Pearson «s Utforske data i ingeniørfag, Vitenskap og medisin er verdt å nevne her. Dens viktigste mållesere ser ut til å være forskere som ikke er redd for litt matematikk som ønsker at de visste mer statistikk. Det er en ganske stor gruppe, og en godt representert her. Det er litt quirky og offbeat, men det dekker mye grunn og det inneholder mye fornuftig råd. Det er ikke Tukey revidert i den forstand at det gir mange nye ideer, men det kan være givende å studere, selv når du tenker det er litt galt med hodet.

Denne boka ser ut til å ha tiltrukket seg veldig liten oppmerksomhet, muligens fordi den er veldig dyr, ikke åpenbart egnet som kurstekst, og foreløpig bare tilgjengelig i innbundet. Men det er intelligent og lesbart og uten søppel i moderne innledende lærebøker (sider og sider med elementære øvelser, dumme ikoner, gratis bilder av glade unge mennesker, masete layout med bokser, hva som helst osv.).

Svar

Også Interaktiv og dynamisk grafikk for dataanalyse: Med eksempler Ved hjelp av R og GGobi, Cook og Swayne

Dette har to kapitler offentlig tilgjengelig på nettet som beskriver prosessen med dataanalyse og håndtering av manglende verdier. Det kommer snart en ny bok av Antony Unwin.

Svar

Nok et par gode bøker å lese er Vakker visualisering og vakre data. Dette er redigerte bøker, det er utrolig gode eksempler på å utforske data med plott, og noen helt forferdelige kapitler.

En annen bok som har noen gode eksempler på bruk av ggplot2 er en ny av Winston Chang

Kommentarer

  • Jeg vil bare dobbeltsjekke, Di, hvis en subtil skrivefeil snek seg inn: mente du kanskje å skrive " tiltalende " i stedet for " forferdelig "?Selv om begge er fornuftige i denne sammenhengen, er utseendet til sistnevnte – uten noen nærmere forklaring – ganske overraskende!
  • forferdelig var riktig – det er en blandet pose – redigerte volumer er ofte
  • Jeg ' er overrasket over disse anbefalingene. Jeg fant begge bøkene stort sett skuffende (lenge på guff, kort på grafikk). Dessverre synes O ' Reilly, som jeg først møtte som utgiver av spektakulært gode Unix-bøker, å ha veldig ujevn kvalitetskontroll for bøker på alt til og med eksternt statistisk.
  • Jeg liker begge bøkene, og føler virkelig at de er betydelige bidrag. Winston Chang ' har mange grunnleggende detaljer om å plotte med ggplot2. Det er en god nybegynnereferanse. Det forteller deg ikke mye om hvorfor du ville lage disse plottene, men de fleste gir god mening for formålet, fra brikkene jeg har lest. Den vakre visualiseringen har noen veldig imponerende kapitler, som takler vanskelige problemer som å visualisere wikipedia, enorme data, mange kompleksiteter, og det går gjennom tenkeprosessen / beslutningene som er tatt for å lage plottene.
  • Bare i tilfelle kommentaren min er tvetydig: Jeg henviste til " Vakre " bøker. Winston Chang ' s bok er hyggelig og hjelpsom.

Svar

Jeg tenker på Forstå robust og utforskende analyse av Hoaglin, Mosteller og Tukey, et ledsagervolum på Utforske datatabeller og figurer som teknisk oppfølging av EDA. Jeg ser også dataanalyse og regresjon, et andre kurs i statistikk av Mosteller og Tukey som oppfølging av EDA. De forskjellige Cleveland-bøkene nevnt ovenfor er skatter.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *