Czytałem książkę Tukeya „Exploratory Data Analysis”. Książka, napisana w 1977 roku, kładzie nacisk na metody papier / ołówek. Czy istnieje bardziej „nowoczesny” następca, który bierze pod uwagę, że możemy teraz natychmiastowo wykreślić duże zbiory danych?

Komentarze

  • czy to powinno być wiki społeczności?
  • It ' s nie jest dla mnie jasne, czy to powinno być CW. Może nie być dobrych odpowiedzi; może być jedna wyraźna, nieprecyzyjna odpowiedź; możemy wygenerować długą listę skutecznych odpowiedzi. Niech ' zobaczę, co się stanie.
  • To dobre pytanie, biozamrażaczu. Chciałem tylko zauważyć, że istnieją bliskie analogie do innych metod pracy. Moim ulubionym jest długopis & papierowa EDA dla współczesnych statystyk, tak jak narzędzia ręczne dla nowoczesnej obróbki drewna. (” Nowoczesna ” obróbka drewna wykorzystuje wiele elektronarzędzi, takich jak piły stołowe i routery, które umożliwiają nawet początkującym uzyskanie zadowalających wyników w znacznie krótszym czasie. , narzędzia te każdego roku odpowiadają również za tysiące brakujących cyfr i kończyn. Ludzie, którzy uczą się używać narzędzi ręcznych, na ogół uczą się pracować lepiej i wydajniej, nawet gdy używają elektronarzędzi).
  • Tak, obróbka drewna to podstawa niezła analogia (brakujące cyfry, brakujące cyfry). Zobacz także software-carpentry.org .

Odpowiedź

Najbliższą rzeczą jest Wizualizacja danych w Cleveland. Chodzi o eksploracyjną analizę danych, chodzi o wizualizacje generowane komputerowo, są głębokie, to klasyczne.

Komentarze

  • To samo dotyczy książki The Elements wykresów danych tego samego autora. Kup oba; oba są doskonałe.

Odpowiedź

Cóż, to nie jest dokładna replika, ale znalazłem mnóstwo przydatnych wskazówek dotyczących kreślenia (i kodu R) w Gelman and Hill „s Analiza danych przy użyciu regresji i wielopoziomowej / hierarchicznej Modele

Ponadto jego blog jest często pełen przydatnych porad graficznych.

Odpowiedź

Interaktywna grafika do analizy danych: zasady i przykłady to taki, który mi się podoba; opis książki mówi, że „omawia eksploracyjną analizę danych (EDA) i jak interaktywne metody graficzne mogą pomóc w uzyskaniu wglądu, a także generowaniu nowych pytań i hipotez na podstawie zbiorów danych”.

Odpowiedź

Książka Hadley Wickham „ggplot2 jest interesująca, ponieważ uczy zarówno gramatyki grafiki, jak i korzystania z oprogramowania ggplot2 .

Odpowiedź

Ronald Pearson „s Exploring Data in Engineering, Warto tu wspomnieć o naukach i medycynie . Wydaje się, że jego głównym odbiorcą są naukowcy, którzy nie boją się odrobiny matematyki i chcieliby poznać więcej statystyk. To dość liczna grupa, dobrze tu reprezentowana. Jest trochę dziwaczny i niekonwencjonalny, ale obejmuje wiele zagadnień i zawiera wiele rozsądnych porad. Nie jest ponownie odwiedzany w Tukey w tym sensie, że oferuje wiele nowych pomysłów, ale studiowanie może być satysfakcjonujące, nawet jeśli myślisz to jest trochę błędne.

Wydaje się, że ta książka nie przyciągnęła uwagi, prawdopodobnie dlatego, że jest bardzo droga, nie nadaje się oczywiście jako tekst do kursu, a na razie dostępna jest tylko w oprawie twardej. Ale jest inteligentny, czytelny i wolny od śmieci współczesnych podręczników wprowadzających (strony i strony podstawowych ćwiczeń, głupie ikony, darmowe zdjęcia szczęśliwych młodych ludzi, wymyślny układ z pudełkami itp.).

Odpowiedź

Również Interaktywna i dynamiczna grafika do analizy danych: z przykładami Korzystanie z R i GGobi, Cook i Swayne

Zawiera dwa publicznie dostępne w sieci rozdziały opisujące proces analizy danych i postępowania z brakującymi wartościami. Niedługo pojawi się nowa książka autorstwa Antonyego Unwina.

Odpowiedź

Kolejne kilka dobrych książek do przeczytania to Piękna wizualizacja i piękne dane. Są to zredagowane książki, są tam zadziwiająco dobre przykłady eksploracji danych za pomocą wykresów i kilka absolutnie przerażających rozdziałów.

Kolejna książka który ma kilka dobrych przykładów użycia ggplot2 jest nowy autorstwa Winston Chang

Komentarze

  • Chcę tylko dokładnie sprawdzić, Di, na wypadek, gdyby wkradła się subtelna literówka: czy może chodziło Ci o napisanie ” atrakcyjnego ” zamiast ” przerażające „?Chociaż oba mają sens w tym kontekście, pojawienie się drugiego – bez dalszych wyjaśnień – jest raczej niespodzianką!
  • przerażające było poprawne – to mieszanka – redagowane tomy często są
  • Jestem ' zaskoczony tymi zaleceniami. Wydaje mi się, że obie książki najbardziej mnie rozczarowały (długie gadanie, krótkie grafiki). Niestety, O ' Reilly, z którym po raz pierwszy spotkałem się jako wydawca spektakularnie dobrych książek o Uniksie, wydaje się mieć bardzo nierówną kontrolę jakości książek na temat wszystkiego, nawet zdalnie statystycznego.
  • Lubię obie książki i naprawdę uważam, że są one znaczącym wkładem. Winston Chang ' s zawiera wiele podstawowych szczegółów dotyczących drukowania za pomocą ggplot2. To dobre odniesienie dla początkujących. Nie mówi ci wiele o tym, dlaczego miałbyś robić te intrygi, ale większość z nich ma sens do tego celu, z fragmentów, które przeczytałem. The Beautiful Visualization ma kilka bardzo imponujących rozdziałów, które dotyczą trudnych problemów, takich jak wizualizacja Wikipedii, ogromnych danych, wiele zawiłości, i przechodzi przez proces myślenia / decyzje podjęte przy tworzeniu wykresów.
  • Na wypadek, gdyby mój komentarz był niejednoznaczny: mówiłem o ” pięknych ” książkach. Książka Winstona Changa ' jest miła i pomocna.

Odpowiedź

Myślę o Zrozumienie solidnej i eksploracyjnej analizy Hoaglina, Mostellera i Tukeya, będącej częścią towarzyszącą eksploracji tabel danych i kształtów jako uzupełnienie techniczne EDA. Widzę również analizę danych i regresję, drugi kurs statystyki autorstwa Mostellera i Tukeya, będący kontynuacją EDA. Różne wspomniane wyżej książki Cleveland to skarby.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *