GAP統計を使用してRのkクラスターを推定しました。ただし、うまく解釈できるかどうかわかりません。
上記のプロットから、3つのクラスターを使用する必要があると想定しています。
2番目のプロットから6つのクラスターを選択する必要があります。GAP統計の正しい解釈ですか?
説明をいただければ幸いです。
コメント
回答
理想的なクラスタリングを取得するには、ギャップ統計を最大化するように$ k $を選択する必要があります。これは、Tibshirani et al。(2001)が論文で示した例で、2つのクラスターを持つ人工データによって形成されたプロットです。ご覧のとおり、ギャップ統計は$で最大化されるため、2は明らかに理想的な$ k $です。 k = 2 $:
ただし、 、多くの実際のデータセットでは、クラスターはそれほど明確に定義されていないため、ギャップ統計の最大化とモデルの節約のバランスをとることができます。適切な例:OPの最初の画像。ギャップ統計を単独で最大化する場合は、30(またはそれ以上!)のクラスターを持つモデルを選択する必要があります。もちろん、そのプロットが増加し続けると仮定すると、結果はそのため、Tibshiraniは 1-standard-error メソッドを提案しています:
クラスターサイズ$ \ hat {k} $を最小の$ k $に選択して、$ \ text {Gap}(k)\ geq \ text {Gap}(k + 1)- s_ {k + 1} $。
これは、ギャップ統計の増加率が「減速」し始めるポイントを非公式に特定しています。
したがって、OPの最初の画像で、赤いエラーバーを標準誤差とすると、3はこの基準を満たす最小の$ k $です。
ただし、OPの2番目の画像の場合は、次のように表示されます。 $ k > 1 $の場合、ギャップ統計はすぐに減少します。したがって、1標準誤差の基準を満たす最初の$ k $は$ 1 $です。これは、データをクラスター化してはならないというプロットの言い方です。
結局のところ、最適な$ k $を選択する方法は他にもあります。R関数のデフォルトの方法
clusGap
は、常にグラフの極大値を検索し、1つの標準誤差内で最小の$ k $を選択します。このfirstSEmax
メソッドを使用して、OPのグラフ1と2にそれぞれ$ k = 30 $と$ k = 19 $を選択します。ただし、前述したように、これには複雑さの問題があるようです。
出典: Robert Tibshirani、Guenther Walther、Trevor Hastie(2001)。ギャップ統計を介してデータセット内のクラスター数を推定します。
コメント
- ギャップ統計から$ k $値を推定する場合、$ k $がクラスターの真の数である確率をどのように計算/推定できますか?それとも私の質問は無意味ですか?
- ギャップ統計を最大化することとモデルの節約を得ることの間のトレードオフを指摘してくれてありがとう
clusGap
を使用しましたが、' maxSEの実装方法がわかりませんでした。