⇒グループラッソは、変数の選択と変数のグループのスパース性に使用されることを読みました。この主張の背後にある直感を知りたいのです。

  • なぜグループ投げ縄が投げ縄よりも好まれるのですか?
  • グループ投げ縄ソリューションパスが区分的に線形ではないのはなぜですか?

コメント

  • Yuan and Lin(2006)から、ラッソは因子選択ではなく個々の変数を選択するように設計されていることがわかりました。したがって、投げ縄は、変数のグループの選択に相当する正確な予測のために重要な主効果と交互作用を選択することが目標であるANOVA問題に対処します。もう1つの例は、各成分が元の測定変数の基底関数の線形結合として表される多項式を使用した加法モデルです。

回答

直感的に言えば、グループ投げ縄は、真の係数$ \ beta ^ * $の推定に(特定のタイプの)追加情報を組み込む手段を提供するため、投げ縄よりも優先されます。極端なシナリオとして、次のことを考慮してください。

$ y \ sim \ mathcal {N}(X \ beta ^ *、\ sigma ^ 2 I)$を使用して、$ S = \ {j:\ $ \ beta ^ * $のサポートとしてbeta ^ * _ j \ neq 0 \} $。 「オラクル」推定量$$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y –X \ beta \ | _2 ^ 2 + \ lambda \ left(| S | ^ {1/2} \ | \ beta_S \ | _2 +(p- | S |)^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right)、$$これは2つのグループを持つグループ投げ縄です-1つ真のサポートと1つの補完。 $ \ lambda_ {max} $を、$ \ hat {\ beta} = 0 $にする$ \ lambda $の最小値とします。グループラッソペナルティの性質上、$ \ lambda $で$ \ lambda_ {max} $から$ \ lambda_ {max}-\ epsilon $に移動することがわかっています(小さな$ \ epsilon 0 $)、ちょうど1つのグループが$ \ hat {\ beta} $のサポートを開始します。これは、一般に$ S $の見積もりと見なされます。グループ化を行うため、高い確率で、選択されたグループは$ S $になり、「完璧な仕事をしました。

実際には、グループをこれほどうまく選択することはできません。ただし、上記の極端なシナリオよりも細かいグループでも、引き続き役立ちます。真の共変量のグループと非真の共変量のグループの間で選択が行われます。私たちはまだ力を借りています。

これはここで形式化されています。条件によっては、予測の上限が示されています。グループなげなわの誤差は、プレーンなげなわの予測誤差の下限よりも低くなります。つまり、グループ化によって推定が改善されることが証明されました。

2番目の質問の場合:(プレーン)投げ縄ペナルティは区分線形であり、これにより区分線形解パスが発生します。直感的に、グループ投げ縄の場合、ペナルティは区分線形ではなくなったため、このプロパティはなくなりました。解パスの区分線形に関する優れたリファレンスはここです。提案1を参照してください。$ L(\ beta)= \ | y –X \ beta \ | _2 ^ 2 $および$ J(\ beta)= \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $。$$ \ left()の場合に限り、グループ投げ縄の解のパスが線形であることを示しています。 \ nabla ^ 2L(\ hat {\ beta})+ \ lambda \ nabla ^ 2 J(\ hat {\ beta})\ right)^ {-1} \ nabla J(\ hat {\ beta})$$はpiec ewise定数である。もちろん、ペナルティ$ J $にはグローバルな曲率があるためではありません。

コメント

  • 今では非常に理にかなっています。ありがとうございます。
  • "借用の強さについての引用が好きです。"統計がもっとフレーム化されていればいいのにと思います。情報を選択的に共有するという点で。

回答

ベンの回答が最も一般的な結果です。しかし、OPに対する直感的な答えは、通常、カテゴリごとに1つずつ、複数のダミー変数としてエンコードされるカテゴリ予測子の場合に動機付けられます。多くの分析では、これらのダミー変数(1つのカテゴリ予測子を表す)を個別にではなく一緒に検討するのが理にかなっています。

たとえば5つのレベルのカテゴリ変数がある場合、まっすぐな投げ縄で2つが残ります。スリーアウト。これを原則的にどのように処理しますか?投票することにしましたか?文字通り、より意味のあるカテゴリの代わりにダミー変数を使用しますか?ダミーエンコーディングは選択にどのように影響しますか?

ロジスティック回帰のグループラッソの紹介で彼らが言うように、次のように述べています。

連続だけでなくカテゴリ予測子(因子)も存在する線形回帰の特殊なケースでは、ラッソ解は選択するだけなので満足のいくものではありません。因子全体ではなく、個々のダミー変数。さらに、ラッソ解は、ダミー変数がどのように符号化されるかに依存します。カテゴリ予測子に異なるコントラストを選択すると、一般に異なるソリューションが生成されます。

ベンが指摘しているように、予測子の間には、一緒に出入りする必要があることを示す、より微妙なリンクもあります。ただし、カテゴリ変数はグループラッソのポスターの子です。

コメント

  • @Ben:うーん…できます' OP 'の最初のコメントを本当に理解していません。削除されたコメントに対する応答のようです' ?質問自体とそのタイトル(ほとんどの視聴者が読むものです)は、一般的な質問のようです。 '質問とタイトルが"グループ化されたラッソにある非自明なアプリケーションに関するものに変更された場合は、必ず私の回答を削除しますカテゴリ変数の場合を超えていますか?"
  • わかりました。因子に(単純な)投げ縄を使用すると、推定が因子のコーディングにどのように依存するかについてのあなたの指摘が好きです!以前、グループラッソは、iv id = “4f16eac70d”ではなく、一種の"測定スパース性"を提供すると考えていました。 >

パラメータのスパース性"(つまり、係数を測定する必要があるかどうか、すべてのレベルを選択するか、まったく選択しないか)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です