GAP統計を使用してRのkクラスターを推定しました。ただし、うまく解釈できるかどうかわかりません。enterここに画像の説明

上記のプロットから、3つのクラスターを使用する必要があると想定しています。

ここに画像の説明を入力してください

2番目のプロットから6つのクラスターを選択する必要があります。GAP統計の正しい解釈ですか?

説明をいただければ幸いです。

コメント

  • 2つの質問-最初のプロットは何を示していますか?同じデータのGAP統計ですか?2番目のプロット(GAPと表示されます)とは異なるように見えるのはなぜですか?どのR関数を使用しましたか?2番目の質問:' 1-標準エラー'ルールを使用して2番目のプロットに6を選択しましたか?
  • つまり、クラスタリングには2つの異なるアプローチがあります。1つ目は時系列に基づいており、26週間の売上と、動的な時間に基づいてデータをクラスタリングしました。 eワーピング。 2番目のアプローチは、動的タイムワーピングに基づいて、成長曲線パラメーターをクラスター化することでした。 globalmaxに基づいてclusGapを使用しましたが、' maxSEの実装方法がわかりませんでした。

回答

理想的なクラスタリングを取得するには、ギャップ統計を最大化するように$ k $を選択する必要があります。これは、Tibshirani et al。(2001)が論文で示した例で、2つのクラスターを持つ人工データによって形成されたプロットです。ご覧のとおり、ギャップ統計は$で最大化されるため、2は明らかに理想的な$ k $です。 k = 2 $:

ギャップ統計

ただし、 、多くの実際のデータセットでは、クラスターはそれほど明確に定義されていないため、ギャップ統計の最大化とモデルの節約のバランスをとることができます。適切な例:OPの最初の画像。ギャップ統計を単独で最大化する場合は、30(またはそれ以上!)のクラスターを持つモデルを選択する必要があります。もちろん、そのプロットが増加し続けると仮定すると、結果はそのため、Tibshiraniは 1-standard-error メソッドを提案しています:

クラスターサイズ$ \ hat {k} $を最小の$ k $に選択して、$ \ text {Gap}(k)\ geq \ text {Gap}(k + 1)- s_ {k + 1} $。

これは、ギャップ統計の増加率が「減速」し始めるポイントを非公式に特定しています。

したがって、OPの最初の画像で、赤いエラーバーを標準誤差とすると、3はこの基準を満たす最小の$ k $です。

注釈付き画像1

ただし、OPの2番目の画像の場合は、次のように表示されます。 $ k > 1 $の場合、ギャップ統計はすぐに減少します。したがって、1標準誤差の基準を満たす最初の$ k $は$ 1 $です。これは、データをクラスター化してはならないというプロットの言い方です。

結局のところ、最適な$ k $を選択する方法は他にもあります。R関数のデフォルトの方法

clusGap は、常にグラフの極大値を検索し、1つの標準誤差内で最小の$ k $を選択します。このfirstSEmaxメソッドを使用して、OPのグラフ1と2にそれぞれ$ k = 30 $と$ k = 19 $を選択します。ただし、前述したように、これには複雑さの問題があるようです。

出典: Robert Tibshirani、Guenther Walther、Trevor Hastie(2001)。ギャップ統計を介してデータセット内のクラスター数を推定します。

コメント

  • ギャップ統計から$ k $値を推定する場合、$ k $がクラスターの真の数である確率をどのように計算/推定できますか?それとも私の質問は無意味ですか?
  • ギャップ統計を最大化することとモデルの節約を得ることの間のトレードオフを指摘してくれてありがとう

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です