Ik heb de GAP-statistiek gebruikt om k clusters in R te schatten. Maar ik “weet niet zeker of ik het goed interpreteer. enter afbeelding beschrijving hier

Van de plot hierboven ga ik ervan uit dat ik 3 clusters moet gebruiken.

voer de afbeelding beschrijving hier in

Uit de tweede plot zou ik 6 clusters moeten kiezen. Is het de juiste interpretatie van de GAP-statistiek?

Ik zou elke uitleg op prijs stellen.

Opmerkingen

  • Twee vragen: wat laat de eerste plot zien? Is het een GAP-statistiek voor dezelfde gegevens? Waarom zou deze er anders uitzien dan de tweede (wat ik zie is een GAP). Welke R-functies heb je gebruikt? Tweede vraag: heb je de ' 1-standaardfout ' -regel gebruikt om 6 te kiezen voor de tweede plot ?
  • Er zijn dus twee verschillende benaderingen voor clustering. De eerste is gebaseerd op tijdreeksen: verkoop gedurende 26 weken en ik heb gegevens geclusterd op basis van dynamische tijd e kromtrekken. De tweede benadering was het clusteren van groeicurveparameters, ook op basis van dynamische tijdvervorming. Ik gebruikte clusGap op basis van globalmax, ik wist niet ' hoe ik maxSE moest implementeren.

Antwoord

Om een ideale clustering te verkrijgen, moet je $ k $ selecteren zodat je de gap-statistiek maximaliseert. Hier is het voorbeeld gegeven door Tibshirani et al. (2001) in hun paper, de plot gevormd door kunstmatige gegevens met 2 clusters. Zoals je kunt zien, is 2 duidelijk de ideale $ k $, omdat de gap-statistiek gemaximaliseerd is op $ k = 2 $:

Gap-statistiek

, in veel real-world datasets, zijn de clusters niet zo goed gedefinieerd, en we willen in staat zijn om een balans te vinden tussen het maximaliseren van de gap-statistiek en de spaarzaamheid van het model. Voorbeeld: OPs eerste afbeelding. Als we de gap-statistiek alleen opnieuw maximaliseren, moeten we het model met 30 (of zelfs meer!) Clusters kiezen. Ervan uitgaande dat die plot alleen maar blijft toenemen, zullen de resultaten natuurlijk zijn minder nuttig. Dus stelt Tibshirani de 1-standard-error methode voor:

Kies de clustergrootte $ \ hat {k} $ als de kleinste $ k $ zodat $ \ text {Gap} (k) \ geq \ text {Gap} (k + 1) – s_ {k + 1} $.

Wat informeel het punt aangeeft waarop de snelheid van toename van de gap-statistiek begint te “vertragen”.

Dus, in OPs eerste afbeelding, als we de rode foutbalken beschouwen als standaardfout, dan is 3 de kleinste $ k $ die aan dit criterium voldoet:

Geannoteerde afbeelding 1

Voor OPs tweede afbeelding zul je echter zien dat de gap-statistiek neemt onmiddellijk af voor $ k > 1 $. Dus de eerste $ k $ die aan het 1-standaardfoutcriterium voldoet, is $ 1 $. Dit is de manier waarop de plot zegt dat de gegevens niet moeten worden geclusterd.

Het blijkt dat er extra manieren zijn om optimale $ k $ te kiezen. De standaardmethode van de R-functie clusGap , zoekt bijvoorbeeld altijd naar het lokale maximum van de grafiek en selecteert de kleinste $ k $ binnen één standaardfout van de lokale max. Met behulp van deze firstSEmax methode, zouden we $ k = 30 $ en $ k = 19 $ selecteren voor respectievelijk OPs grafieken 1 en 2. Zoals ik al zei, lijkt dit echter te lijden aan een complexiteitsprobleem.

Bron: Robert Tibshirani, Guenther Walther en Trevor Hastie (2001). Het aantal clusters in een gegevensset schatten via de gap-statistiek.

Opmerkingen

  • Bij het schatten van $ k $ -waarde uit de gap-statistiek , hoe kan ik de kans berekenen / schatten dat $ k $ het werkelijke aantal clusters is? Of is mijn vraag zinloos?
  • Bedankt dat je hebt gewezen op de afweging tussen het maximaliseren van de gap-statistiek en het krijgen van spaarzaamheid van het model

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *