GAP statisztikát használtam az R klaszter becsléséhez. Nem vagyok biztos benne, hogy jól értelmezem-e.
A fenti ábrán feltételezem, hogy 3 fürtöt kellene használnom.
A második ábrából 6 klasztert kell választanom. Ez a GAP statisztika helyes értelmezése?
Hálás lennék minden magyarázatért.
Hozzászólások
Válasz
Ideális fürtözéshez válassza ki a $ k $ értéket, hogy maximalizálja a résstatisztikát. Itt van Tibshirani és munkatársai (2001) cikkében megemlített példa, a mesterséges adatok által létrehozott cselekmény 2 klaszterrel. Mint látható, a 2 egyértelműen az ideális $ k $, mert a résstatisztika $ -on van maximalizálva k = 2 $:
, sok valós adathalmazban a klaszterek nincsenek olyan jól definiálva, és szeretnénk tudni egyensúlyba hozni a résstatisztika maximalizálását a modell parszimóniájával. Példa: OP első képe. Ha maximalizáljuk a résstatisztikát egyedül , akkor 30 (vagy még több!) Klaszterrel rendelkező modellt kell választanunk. Feltéve, hogy ez a cselekmény természetesen tovább fog növekedni, természetesen az eredmények kevésbé hasznosak. Tehát Tibshirani az 1-standard-error módszert javasolja:
Válassza ki a $ \ hat {k} $ fürt méretét, hogy legyen a legkisebb $ k $, hogy $ \ text {Gap} (k) \ geq \ text {Gap} (k + 1) – s_ {k + 1} $.
Ami informálisan azonosítja azt a pontot, amikor a résstatisztika növekedési üteme „lassulni” kezd.
Tehát az OP első képén, ha a piros hibasávokat szokásos hibának vesszük, akkor a 3 a legkisebb $ k $, amely megfelel ennek a kritériumnak:
Az OP második képéhez azonban ezt látni fogja a résstatisztika azonnal csökken $ k > 1 $ esetén. Tehát az első $ k $, amely megfelel az 1-standard-hiba kritériumnak, $ 1 $. Ez a cselekmény azt mondja, hogy az adatokat nem szabad fürtözni.
Mint kiderült, további lehetőségek vannak az optimális $ k $ kiválasztására. Az R függvény alapértelmezett módszere clusGap
például mindig a grafikon helyi maximumát keresi, és a legkisebb $ k $ értéket választja ki egy szabványos hibán belül a helyi max. értékét. Ezzel az firstSEmax
módszerrel kiválasztanánk a $ k = 30 $ és $ k = 19 $ értékeket az OP 1. és 2. grafikonjára. Mint mondtam, úgy tűnik, hogy ez összetettséggel jár.
Megjegyzések
- $ k $ érték becsléséhez a hiány statisztikából , hogyan tudom kiszámítani / megbecsülni annak valószínűségét, hogy $ k $ a klaszterek valódi száma? Vagy értelmetlen a kérdésem?
- Köszönöm, hogy rámutattak a kompromisszumra a résstatisztika maximalizálása és a modell parsimóniája között.
clusGap
-t használtam a globalmax alapján, nem tudtam ' nem tudtam, hogyan kell megvalósítani a maxSE-t.