Ik “heb Tukeys boek” Exploratory Data Analysis “gelezen. Het boek, dat in 1977 werd geschreven, legt de nadruk op papier / potlood-methoden. Is er een meer “moderne” opvolger die er rekening mee houdt dat we nu direct grote datasets kunnen plotten?
Reacties
- zou dit een communitywiki moeten zijn?
- Het is ‘ s het is mij niet duidelijk of dit CW zou moeten zijn. Er zijn misschien geen goede antwoorden; er kan een duidelijk openstaand antwoord zijn; we zouden een lange lijst met effectieve antwoorden kunnen genereren. Laat ‘ s kijken wat er gebeurt.
- Dit is een goede vraag, biofreezer. Ik wilde alleen opmerken dat er overeenkomsten zijn met andere werkmethoden. Mijn favoriet is, pen & papier EDA is voor moderne statistieken zoals handgereedschap voor moderne houtbewerking. (” Moderne ” houtbewerking gebruikt veel elektrisch gereedschap zoals tafelzagen en routers waarmee zelfs beginners in veel minder tijd acceptabele resultaten kunnen behalen. zorgen deze gereedschappen ook voor duizenden ontbrekende cijfers en ledematen per jaar. Mensen die leren handgereedschap te gebruiken, leren over het algemeen beter en efficiënter te werken, zelfs wanneer ze elektrisch gereedschap gebruiken.)
- Ja, houtbewerking is een mooie analogie (ontbrekende cijfers, ontbrekende cijfers). Zie ook software-carpentry.org .
Answer
Het komt het dichtst in de buurt van Clevelands Gegevens visualiseren . Het gaat om verkennende gegevensanalyse, het gaat om computergegenereerde visualisaties, het is diepgaand, het is een klassieker.
Opmerkingen
- Hetzelfde geldt ook voor het boek The Elements van grafische gegevens van dezelfde auteur. Koop ze allebei; ze zijn allebei uitstekend.
Antwoord
Nou, het is geen exacte replica, maar ik vond tonnen nuttig plotadvies (en R-code) in Gelman en Hill “s Data-analyse met behulp van regressie en multilevel / hiërarchische Modellen
Bovendien staat zijn blog vaak vol met handig grafisch advies.
Antwoord
Interactieve afbeeldingen voor gegevensanalyse: principes en voorbeelden is er een die ik leuk vind; de boekbeschrijving zegt dat het “exploratory data analysis (EDA) bespreekt en hoe interactieve grafische methoden kunnen helpen bij het verkrijgen van inzichten en het genereren van nieuwe vragen en hypotheses uit datasets.”
Antwoord
Hadley Wickhams ggplot2-boek is interessant omdat het zowel de grammatica van grafische afbeeldingen leert als het gebruik van de ggplot2-software .
Antwoord
Ronald Pearson “s Data in Engineering onderzoeken, de Wetenschappen en geneeskunde is het vermelden waard hier. De belangrijkste doelgroep van de lezers lijkt wetenschappers te zijn die niet bang zijn voor een beetje wiskunde en die zouden willen dat ze meer statistieken wisten. Dat is een vrij grote groep, en een die hier goed vertegenwoordigd is. Het is een beetje eigenzinnig en ongebruikelijk, maar het bestrijkt veel terrein en het bevat veel verstandig advies. Het is niet door Tukey opnieuw bezocht in de zin dat het veel nieuwe ideeën biedt, maar het kan lonend zijn om te studeren, zelfs als je nadenkt het is een beetje verkeerd in het hoofd.
Dit boek lijkt weinig aandacht te hebben getrokken, heel waarschijnlijk omdat het erg duur is, niet duidelijk geschikt als cursustekst en tot nu toe alleen beschikbaar is in hardcover. Maar het is intelligent en leesbaar en vrij van de rotzooi van moderne inleidende leerboeken (paginas en paginas met elementaire oefeningen, gekke iconen, gratis fotos van gelukkige jonge mensen, kieskeurige lay-out met dozen, wat dan ook, enz.).
Antwoord
Er zijn twee hoofdstukken die openbaar beschikbaar zijn op internet, waarin het proces van gegevensanalyse en het omgaan met ontbrekende waarden wordt beschreven. Er komt binnenkort een nieuw boek uit van Antony Unwin.
Antwoord
Nog een paar goede boeken om te lezen zijn Prachtige visualisatie en prachtige gegevens. Dit zijn bewerkte boeken, er zijn verbazingwekkend goede voorbeelden van het verkennen van gegevens met plots en enkele absoluut ontstellende hoofdstukken.
Nog een boek die een aantal goede voorbeelden heeft van het gebruik van ggplot2 is een nieuwe door Winston Chang
Reacties
- Ik wil het gewoon dubbel controleren, Di, voor het geval er een subtiele typefout is binnengeslopen: wilde je misschien ” schrijven ” in plaats van ” verschrikkelijk “?Hoewel beide in deze context logisch zijn, is het uiterlijk van de laatste – zonder enige verdere uitleg – nogal een verrassing!
- verschrikkelijk was juist – het is een allegaartje – bewerkte delen zijn vaak
- Ik ‘ ben verrast door deze aanbevelingen. Ik vond beide boeken meestal teleurstellend (lang op guff, kort op graphics). Helaas lijkt O ‘ Reilly, die ik voor het eerst tegenkwam als uitgever van spectaculair goede Unix-boeken, een zeer ongelijke kwaliteitscontrole te hebben voor boeken over alles, zelfs maar op afstand statistisch.
- Ik vind beide boeken leuk en heb echt het gevoel dat ze substantiële bijdragen zijn. Winston Chang ‘ s heeft veel basisdetails over het plotten met ggplot2. Het is een goede referentie voor beginners. Het vertelt je niet veel over waarom je deze plots zou maken, maar de meeste zijn logisch voor het doel, uit de stukken die ik heb gelezen. The Beautiful Visualization heeft een aantal zeer indrukwekkende hoofdstukken, waarin moeilijke problemen worden aangepakt, zoals het visualiseren van wikipedia, enorme gegevens, veel complexiteit, en het doorloopt het denkproces / de beslissingen die zijn genomen om de plots te maken.
- Voor het geval dat mijn opmerking is dubbelzinnig: ik verwees naar de ” Mooie ” boeken. Winston Chang ‘ s boek is aardig en behulpzaam.
Antwoord
Ik denk aan Understanding robuuste en verkennende analyse door Hoaglin, Mosteller en Tukey en het begeleidende volume over het verkennen van gegevenstabellen en vormen als de technische follow-up van EDA. Ik zie ook data-analyse en regressie, een tweede cursus statistiek door Mosteller en Tukey als vervolg op EDA. De verschillende bovengenoemde Cleveland-boeken zijn schatten.