Jag har läst Tukeys bok ”Exploratory Data Analysis”. Boken skrivs 1977 och betonar metoder för papper / penna. Finns det en mer ”modern” efterträdare som tar hänsyn till att vi nu direkt kan plotta stora datamängder?
Kommentarer
- borde detta vara community-wiki?
- Det ' s inte klart för mig om detta borde vara CW. Det kan finnas inga bra svar; det kan finnas ett tydligt utestående svar; vi kan skapa en lång lista med effektiva svar. Låt ' se vad som händer.
- Det här är en bra fråga, biofreezer. Jag ville bara påpeka att det finns nära analogier med andra arbetsmetoder. Min favorit är att penna & papper EDA är modern statistik som handverktyg är modern träbearbetning. (" Modern " träbearbetning använder många elverktyg som bordssågar och routrar som gör det möjligt för även nybörjare att visa acceptabla resultat på mycket kortare tid. , dessa verktyg står också för tusentals saknade siffror och lemmar varje år. Människor som lär sig att använda handverktyg lär sig i allmänhet att arbeta bättre och mer effektivt även när de använder elverktyg.)
- Ja, träbearbetning är en fin analogi (saknade siffror, saknade siffror). Se även software-carpentry.org .
Svar
Det närmaste är Cleveland s Visualisering av data . Det handlar om Exploratory Data Analysis, det handlar om datorgenererade visualiseringar, den är djupgående, den är klassisk.
Kommentarer
- Detsamma gäller även boken The Elements av diagramdata av samma författare. Köp dem båda; de är båda utmärkta.
Svar
Tja, det är inte en exakt replika, men jag hittade massor av användbara plottningsråd (och R-kod) i Gelman och Hill ”s Dataanalys med regression och flernivå / hierarkisk Modeller
Dessutom är hans blogg ofta full av användbara grafikråd.
Svar
Interaktiv grafik för dataanalys: principer och exempel är en jag gillar; bokbeskrivningen säger att den ”diskuterar explorativ dataanalys (EDA) och hur interaktiva grafiska metoder kan hjälpa till att få insikter samt generera nya frågor och hypoteser från datamängder.”
Svar
Hadley Wickhams ggplot2-bok är intressant eftersom den lär ut både grammatik för grafik och hur man använder programvaran ggplot2 .
Svar
Ronald Pearson ”s Utforska data inom teknik, Vetenskap och medicin är värt att nämna här. Dess främsta målläsare verkar vara forskare som inte är rädda för lite matematik som önskar att de visste mer statistik. Det är en ganska stor grupp, och en väl representerad här. Det ”är lite knäppt och otrevligt, men det täcker mycket mark och det innehåller mycket förnuftiga råd. Det är inte Tukey återbesökt i den meningen att det erbjuder många nya idéer, men det kan vara givande att studera, även när du tänker det är lite felhuvud.
Denna bok verkar ha väckt väldigt lite uppmärksamhet, möjligen för att den är väldigt dyr, inte uppenbarligen lämplig som kurstext och ännu endast tillgänglig i inbunden. Men det är intelligent och läsbart och fritt från skräpet i moderna inledande läroböcker (sidor och sidor med elementära övningar, fåniga ikoner, gratis bilder av glada unga människor, noga layout med rutor, vad som helst, etc.).
Svar
Också Interaktiv och dynamisk grafik för dataanalys: med exempel Använda R och GGobi, Cook och Swayne
Detta har två kapitel som är offentligt tillgängliga på webben som beskriver processen för dataanalys och hantering av saknade värden. Det kommer snart en ny bok av Antony Unwin.
Svar
Ytterligare ett par bra böcker att läsa är Vacker visualisering och vackra data. Dessa är redigerade böcker, det finns otroligt bra exempel på att utforska data med tomter och några helt skrämmande kapitel.
En annan bok som har några bra exempel på att använda ggplot2 är en ny av Winston Chang
Kommentarer
- Jag vill bara dubbelkolla, Di, om en subtil stavfel kryper in: menade du kanske att skriva " tilltalande " istället för " skrämmande "?Även om båda är vettiga i detta sammanhang är utseendet på det senare – utan någon ytterligare förklaring – snarare en överraskning!
- skrämmande var korrekt – det är en blandad påse – redigerade volymer är ofta
- Jag ' är förvånad över dessa rekommendationer. Jag tyckte att båda böckerna var mest nedslående (långa på guff, korta på grafik). Tyvärr verkar O ' Reilly, som jag först stötte på som utgivare av spektakulärt bra Unix-böcker, ha mycket ojämn kvalitetskontroll för böcker om någonting ens fjärrstatistiskt.
- Jag gillar båda böckerna och känner verkligen att de är betydande bidrag. Winston Chang ' har många grundläggande detaljer om att plotta med ggplot2. Det är en bra nybörjarreferens. Det berättar inte mycket om varför du skulle göra dessa tomter, men de flesta är bra för ändamålet, från de bitar som jag har läst. Den vackra visualiseringen har några mycket imponerande kapitel, som tar itu med svåra problem som att visualisera wikipedia, massiva data, många komplexiteter, och det går igenom tankeprocessen / de beslut som fattas för att göra tomterna. tvetydig: Jag hänvisade till " Vackra " böcker. Winston Chang ' s bok är trevlig och hjälpsam.
Svar
Jag tänker på att förstå robust och utforskande analys av Hoaglin, Mosteller och Tukey, en medföljande volym om att utforska datatabeller och former som teknisk uppföljning av EDA. Jag ser också dataanalys och regression, en andra kurs i statistik av Mosteller och Tukey som uppföljning av EDA. De olika Cleveland-böckerna som nämns ovan är skatter.