Olen lukenut Tukeyn kirjaa ”Exploratory Data Analysis”. Vuonna 1977 kirjoitetussa kirjassa korostetaan paperi / lyijykynä menetelmiä. Onko olemassa nykyaikaisempaa seuraajaa, joka ottaa huomioon, että voimme nyt piirtää suuret tietojoukot välittömästi?
kommentit
- pitäisikö tämän olla yhteisön wiki?
- Se ' s ei ole minulle selvää, pitäisikö tämän olla CW. Hyviä vastauksia ei ehkä ole; voi olla yksi selkeä erinomainen vastaus; voimme luoda pitkän luettelon tehokkaista vastauksista. Anna ' n nähdä, mitä tapahtuu.
- Tämä on hyvä kysymys, biopakastin. Halusin vain huomauttaa, että on olemassa läheisiä analogioita muihin työtapoihin. Suosikkini on, kynä & paperi EDA on nykyaikaisia tilastoja ja käsityökaluja nykyaikaista puutyötä. (" Moderni " puunjalostuksessa käytetään monia sähkötyökaluja, kuten pöytäsahoja ja reitittimiä, joiden avulla jopa aloittelijat voivat tuottaa hyväksyttäviä tuloksia paljon lyhyemmässä ajassa. , nämä työkalut aiheuttavat myös tuhansia puuttuvia numeroita ja raajoja vuosittain. Ihmiset, jotka oppivat käyttämään käsityökaluja, oppivat yleensä toimimaan paremmin ja tehokkaammin, vaikka he käyttävät sähkötyökaluja.)
- Kyllä, puuntyöstö on mukava analogia (puuttuvat numerot, puuttuvat numerot). Katso myös software-carpentry.org .
Vastaa
Lähin asia on Cleveland tietojen visualisointi . Se koskee tutkimustietojen analysointia, se on noin tietokoneella luodut visualisoinnit, se on syvällinen, klassinen.
Kommentit
- Sama koskee myös kirjaa Elementit graafinen data , jonka on kirjoittanut sama tekijä. Osta molemmat; molemmat ovat erinomaisia.
Vastaa
No, se ei ole tarkka kopio, mutta löysin tonnia hyödyllisiä piirtämistä koskevia neuvoja (ja R-koodia) Gelmanin ja Hillin ”s tietojen analysoinnista regressiota ja monitasoista / hierarkista Mallit
Lisäksi hänen bloginsa on usein täynnä hyödyllisiä grafiikan neuvoja.
Vastaus
Vuorovaikutteinen grafiikka tietojen analysointiin: periaatteet ja esimerkit on yksi, josta pidän; kirjan kuvauksessa sanotaan, että ”keskustellaan etsivistä tiedoista (EDA) ja siitä, kuinka vuorovaikutteiset graafiset menetelmät voivat auttaa saamaan oivalluksia sekä luomaan uusia kysymyksiä ja hypoteeseja aineistoista.”
Vastaus
Hadley Wickhamin ggplot2-kirja on mielenkiintoinen, koska se opettaa sekä grafiikan kielioppia että ggplot2-ohjelmiston käyttöä .
Vastaa
Ronald Pearson ”s Tutkitaan tietoja tekniikassa, Tiede ja lääketiede on syytä mainita täällä. Sen tärkein kohdelukija näyttää olevan tutkijoita, jotka eivät pelkää matematiikkaa, jotka haluavat tietävänsä enemmän tilastoja. Se on melko suuri ryhmä, ja yksi hyvin edustettuna täällä. Se on vähän omituinen ja omituinen, mutta se kattaa paljon maata ja sisältää paljon järkeviä neuvoja. Tukey ei ole palannut siihen suuntaan, että se tarjoaa monia uusia ideoita, mutta voi olla palkitsevaa opiskella, vaikka ajatteletkin se on hieman vääräpäinen.
Tämä kirja näyttää olevan herättänyt hyvin vähän huomiota, todennäköisesti siksi, että se on erittäin kallis, ei tietenkään sovellu kurssitekstiksi ja on vielä saatavana vain kovakantisena. Mutta se on älykäs ja luettavissa eikä sisällä nykyaikaisten johdanto-oppikirjojen roskia (sivut ja sivut alkeisharjoituksia, typerät kuvakkeet, kohtuuttomat valokuvat onnellisista nuorista, hämmentävä asettelu laatikoilla jne.).
vastaus
Tässä on kaksi verkossa julkisesti saatavilla olevaa lukua, jotka kuvaavat tietojen analysointia ja puuttuvien arvojen käsittelyä. Antony Unwin ilmoittaa pian uuden kirjan.
Vastaa
Vielä muutama hyvä luettava kirja on Kaunis visualisointi ja kauniit tiedot. Nämä ovat muokattuja kirjoja, on hämmästyttävän hyviä esimerkkejä tietojen tutkimisesta juonilla ja joitain aivan kauhistuttavia lukuja.
Toinen kirja jolla on hyviä esimerkkejä ggplot2: n käytöstä, on uusi Winston Changin
kommentit
- Haluan vain tarkistaa vielä kerran, Di, jos hiukan kirjoitusvirhe piiloutuu: tarkoittitko ehkä kirjoittaa " houkuttelevaa " " kauhistavan " sijaan?Vaikka molemmilla on järkevää tässä yhteydessä, jälkimmäisen ulkonäkö – ilman lisäselvityksiä – on pikemminkin yllätys!
- kauhistuttava oli oikein – se on sekalaukku – muokatut volyymit ovat usein
- Olen ' yllättynyt näistä suosituksista. Löysin molemmat kirjat enimmäkseen pettymyksiä (pitkät guffit, lyhyet grafiikat). Valitettavasti O ' Reilly, jonka tapasin ensimmäisen kerran näyttävän hyvien Unix-kirjojen kustantajana, näyttää olevan erittäin epätasaisen kirjojen laadunvalvonnassa kaikesta edes tilastollisesta.
- Siinä tapauksessa, että kommenttini epäselvä: Tarkoitin " kauniita " kirjoja. Winston Chang ' -kirja on mukava ja hyödyllinen.
i Pidän molemmista kirjoista ja mielestäni ne ovat merkittäviä. Winston Chang ' s sisältää paljon perustietoja piirtämisestä ggplot2: lla. Se on hyvä viite aloittelijoille. Se ei kerro sinulle paljon siitä, miksi tekisit nämä juoni, mutta useimmilla on järkevää tarkoitusta varten lukemieni kappaleiden perusteella. Kauniissa visualisoinneissa on joitain erittäin vaikuttavia lukuja, joissa puututaan vaikeisiin ongelmiin, kuten wikipedian visualisointiin, massiiviseen dataan, moniin monimutkaisuuksiin, ja se käy läpi ajatusprosessin / juonien tekemisessä tehdyt päätökset.
Vastaa
Ajattelen ymmärtää Hoaglinin, Mostellerin ja Tukeyn tekemän vankan ja tutkivan analyysin, joka on tietotaulukoiden ja muotojen tutkimiselle tarkoitettu lisälehti EDA: n teknisenä seurantana. Näen myös tietojen analysoinnin ja regressioiden, Mostellerin ja Tukeyn toisen tilastokurssin EDA: n jatkoa. Edellä mainitut Clevelandin kirjat ovat aarteita.