Kuinka minun pitäisi tulkita GAP-tilastoja?

Käytin GAP-tilastoa arvioidessani k-klusteria R: ssä. En kuitenkaan ole varma, tulkitsenko sitä hyvin. enter kuvan kuvaus tässä

Yllä olevasta juonesta oletan, että minun pitäisi käyttää 3 klusteria.

kirjoita kuvan kuvaus tähän

Toisesta kaaviosta minun pitäisi valita 6 klusteria. Onko GAP-tilastojen oikea tulkinta?

Olisin kiitollinen kaikista selityksistä.

Kommentit

Kaksi kysymystä – Mikä on ensimmäinen käyrä? Onko se samojen tietojen GAP-tilasto? Miksi se näyttäisi erilaiselta kuin toinen (mielestäni se on GAP). Mitä R-toimintoja käytit? Toinen kysymys: käytitkö ' 1-standardivirhe ' -sääntöä valitaksesi 6 toiselle kaavioon ?
Joten klusterointiin on kaksi erilaista lähestymistapaa. Ensimmäinen perustuu aikasarjoihin – myynti 26 viikon aikana ja ryhmitelty data dynaamisen ajan perusteella vääntyminen. Toinen lähestymistapa oli kasautumiskäyrän parametrien klusteri, joka perustui myös dynaamiseen ajankäyttöön. Käytin clusGap perustuen globalmaxiin, en tiennyt ' en tiennyt miten maxSE toteutetaan.

Vastaa

Saadaksesi ihanteellisen klusterin, sinun on valittava $ k $ siten, että maksimoisit aukotilaston. Tässä on Tibshirani et ai. (2001) paperissaan annettu juoni, keinotekoisen datan muodostama juoni kahdella klusterilla. Kuten näette, 2 on selvästi ihanteellinen $ k $, koska aukotilasto on maksimoitu $ k = 2 $:

Kuitenkin , monissa tosielämän aineistoissa klusterit eivät ole niin tarkasti määriteltyjä, ja haluamme pystyä tasapainottamaan aukotilastojen maksimoinnin mallin persimoon. Tapaus: OP: n ensimmäinen kuva. Jos maksimoimme aukotilaston yksin , meidän pitäisi valita malli, jossa on 30 (tai jopa enemmän!) Klusteria. Olettaen, että juoni vain jatkaa kasvuaan, tietysti tulokset ovat vähemmän hyödyllisiä. Joten Tibshirani ehdottaa 1-standardivirhe -menetelmää:

Valitse klusterin koko $ \ hat {k} $ pienimmäksi $ k $ siten, että $ \ text {Gap} (k) \ geq \ text {Gap} (k + 1) – s_ {k + 1} $.

Mikä epävirallisesti tunnistaa pisteen, jossa aukotilaston kasvunopeus alkaa ”hidastua”.

Jos siis otamme OP: n ensimmäisessä kuvassa punaiset virhepalkit vakiovirheeksi, 3 on pienin $ k $, joka täyttää tämän kriteerin:

OP: n toisen kuvan kohdalla näet kuitenkin, että aukotilasto pienenee välittömästi $ k > 1 $. Joten ensimmäinen $ k $, joka täyttää 1-standardivirhe -kriteerin, on $ 1 $. Tämä on juoni tapa sanoa, että tietoja ei tule ryhmitellä.

Kuten käy ilmi, on olemassa muita tapoja valita optimaalinen $ k $. R-funktion oletustapa clusGap , etsii aina kaavion paikallista maksimia ja valitsee pienimmän $ k $ yhden vakovirheen sisällä paikallisen maksimin arvosta. Tätä firstSEmax -menetelmää käyttämällä valitsisimme $ k = 30 $ ja $ k = 19 $ OP: n kaavioihin 1 ja 2. Kuten sanoin, tämä näyttää kärsivän monimutkaisuudesta.

Lähde: Robert Tibshirani, Guenther Walther ja Trevor Hastie (2001). Arvioidaan klustereiden määrä tietojoukossa aukotilaston avulla.

Kommentit

Kun arvioidaan $ k $ -arvoa aukotilastosta , kuinka voin laskea / arvioida todennäköisyyden, että $ k $ on todellinen klustereiden määrä? Vai onko kysymykselleni merkityksetön?
Kiitos, että osoitit kompromissin kuilutilastojen maksimoinnin ja mallin perimisen välillä

Kommentit

Vastaa

Kommentit

Vastaa Peruuta vastaus