Hogyan értelmezzem a GAP statisztikát?

GAP statisztikát használtam az R klaszter becsléséhez. Nem vagyok biztos benne, hogy jól értelmezem-e. enter képleírás itt

A fenti ábrán feltételezem, hogy 3 fürtöt kellene használnom.

írja ide a kép leírását

A második ábrából 6 klasztert kell választanom. Ez a GAP statisztika helyes értelmezése?

Hálás lennék minden magyarázatért.

Hozzászólások

Két kérdés – Mit mutat az első diagram? GAP-statisztika ugyanarról az adatról? Miért nézne ki másként, mint a második (ami szerintem egy GAP)? Milyen R függvényeket használt? Második kérdés: az ' 1-szabványos hiba ' szabályt használta-e a 6 kiválasztásához a második ábrához ?
Tehát a fürtözésnek kétféle megközelítése van: az első idősorokon alapul – 26 héten keresztüli értékesítés, én pedig dinamikus idő alapján csoportosítottam az adatokat e vetemedés. A második megközelítés a növekedési görbe paramétereinek klaszterezése volt, szintén dinamikus idővetemítésen alapulva. clusGap -t használtam a globalmax alapján, nem tudtam ' nem tudtam, hogyan kell megvalósítani a maxSE-t.

Válasz

Ideális fürtözéshez válassza ki a $ k $ értéket, hogy maximalizálja a résstatisztikát. Itt van Tibshirani és munkatársai (2001) cikkében megemlített példa, a mesterséges adatok által létrehozott cselekmény 2 klaszterrel. Mint látható, a 2 egyértelműen az ideális $ k $, mert a résstatisztika $ -on van maximalizálva k = 2 $:

, sok valós adathalmazban a klaszterek nincsenek olyan jól definiálva, és szeretnénk tudni egyensúlyba hozni a résstatisztika maximalizálását a modell parszimóniájával. Példa: OP első képe. Ha maximalizáljuk a résstatisztikát egyedül , akkor 30 (vagy még több!) Klaszterrel rendelkező modellt kell választanunk. Feltéve, hogy ez a cselekmény természetesen tovább fog növekedni, természetesen az eredmények kevésbé hasznosak. Tehát Tibshirani az 1-standard-error módszert javasolja:

Válassza ki a $ \ hat {k} $ fürt méretét, hogy legyen a legkisebb $ k $, hogy $ \ text {Gap} (k) \ geq \ text {Gap} (k + 1) – s_ {k + 1} $.

Ami informálisan azonosítja azt a pontot, amikor a résstatisztika növekedési üteme „lassulni” kezd.

Tehát az OP első képén, ha a piros hibasávokat szokásos hibának vesszük, akkor a 3 a legkisebb $ k $, amely megfelel ennek a kritériumnak:

Az OP második képéhez azonban ezt látni fogja a résstatisztika azonnal csökken $ k > 1 $ esetén. Tehát az első $ k $, amely megfelel az 1-standard-hiba kritériumnak, $ 1 $. Ez a cselekmény azt mondja, hogy az adatokat nem szabad fürtözni.

Mint kiderült, további lehetőségek vannak az optimális $ k $ kiválasztására. Az R függvény alapértelmezett módszere clusGap például mindig a grafikon helyi maximumát keresi, és a legkisebb $ k $ értéket választja ki egy szabványos hibán belül a helyi max. értékét. Ezzel az firstSEmax módszerrel kiválasztanánk a $ k = 30 $ és $ k = 19 $ értékeket az OP 1. és 2. grafikonjára. Mint mondtam, úgy tűnik, hogy ez összetettséggel jár.

Forrás: Robert Tibshirani, Guenther Walther és Trevor Hastie (2001). Becsüljük meg a fürtök számát egy adatkészletben a hiány statisztikán keresztül.

Megjegyzések

$ k $ érték becsléséhez a hiány statisztikából , hogyan tudom kiszámítani / megbecsülni annak valószínűségét, hogy $ k $ a klaszterek valódi száma? Vagy értelmetlen a kérdésem?
Köszönöm, hogy rámutattak a kompromisszumra a résstatisztika maximalizálása és a modell parsimóniája között.

Hozzászólások

Válasz

Megjegyzések

Vélemény, hozzászólás? Kilépés a válaszból