Käytin GAP-tilastoa arvioidessani k-klusteria R: ssä. En kuitenkaan ole varma, tulkitsenko sitä hyvin.
Yllä olevasta juonesta oletan, että minun pitäisi käyttää 3 klusteria.
Toisesta kaaviosta minun pitäisi valita 6 klusteria. Onko GAP-tilastojen oikea tulkinta?
Olisin kiitollinen kaikista selityksistä.
Kommentit
Vastaa
Saadaksesi ihanteellisen klusterin, sinun on valittava $ k $ siten, että maksimoisit aukotilaston. Tässä on Tibshirani et ai. (2001) paperissaan annettu juoni, keinotekoisen datan muodostama juoni kahdella klusterilla. Kuten näette, 2 on selvästi ihanteellinen $ k $, koska aukotilasto on maksimoitu $ k = 2 $:
Kuitenkin , monissa tosielämän aineistoissa klusterit eivät ole niin tarkasti määriteltyjä, ja haluamme pystyä tasapainottamaan aukotilastojen maksimoinnin mallin persimoon. Tapaus: OP: n ensimmäinen kuva. Jos maksimoimme aukotilaston yksin , meidän pitäisi valita malli, jossa on 30 (tai jopa enemmän!) Klusteria. Olettaen, että juoni vain jatkaa kasvuaan, tietysti tulokset ovat vähemmän hyödyllisiä. Joten Tibshirani ehdottaa 1-standardivirhe -menetelmää:
Valitse klusterin koko $ \ hat {k} $ pienimmäksi $ k $ siten, että $ \ text {Gap} (k) \ geq \ text {Gap} (k + 1) – s_ {k + 1} $.
Mikä epävirallisesti tunnistaa pisteen, jossa aukotilaston kasvunopeus alkaa ”hidastua”.
Jos siis otamme OP: n ensimmäisessä kuvassa punaiset virhepalkit vakiovirheeksi, 3 on pienin $ k $, joka täyttää tämän kriteerin:
OP: n toisen kuvan kohdalla näet kuitenkin, että aukotilasto pienenee välittömästi $ k > 1 $. Joten ensimmäinen $ k $, joka täyttää 1-standardivirhe -kriteerin, on $ 1 $. Tämä on juoni tapa sanoa, että tietoja ei tule ryhmitellä.
Kuten käy ilmi, on olemassa muita tapoja valita optimaalinen $ k $. R-funktion oletustapa clusGap
, etsii aina kaavion paikallista maksimia ja valitsee pienimmän $ k $ yhden vakovirheen sisällä paikallisen maksimin arvosta. Tätä firstSEmax
-menetelmää käyttämällä valitsisimme $ k = 30 $ ja $ k = 19 $ OP: n kaavioihin 1 ja 2. Kuten sanoin, tämä näyttää kärsivän monimutkaisuudesta.
Kommentit
- Kun arvioidaan $ k $ -arvoa aukotilastosta , kuinka voin laskea / arvioida todennäköisyyden, että $ k $ on todellinen klustereiden määrä? Vai onko kysymykselleni merkityksetön?
- Kiitos, että osoitit kompromissin kuilutilastojen maksimoinnin ja mallin perimisen välillä
clusGap
perustuen globalmaxiin, en tiennyt ' en tiennyt miten maxSE toteutetaan.