Jai lu que le lasso de groupe est utilisé pour la sélection de variables et la parcimonie dans un groupe de variables. Je veux connaître lintuition derrière cette affirmation.

  • Pourquoi le lasso de groupe est-il préféré au lasso?
  • Pourquoi le chemin de la solution du lasso de groupe nest-il pas linéaire par morceaux?

Commentaires

  • Ce que je comprends de Yuan et Lin (2006) que le lasso est conçu pour sélectionner des variables individuelles et non pour sélectionner des facteurs. Le lasso aborde donc le problème de lANOVA où le but est de sélectionner les effets et interactions principaux importants pour une prédiction précise qui revient à sélectionner des groupes de variables. Lautre exemple est un modèle additif avec polynôme où chaque composante est exprimée comme une combinaison linéaire de fonctions de base des variables mesurées dorigine

Answer

Intuitivement parlant, le groupe lasso peut être préféré au lasso car il nous permet dincorporer (un certain type) des informations supplémentaires dans notre estimation du vrai coefficient $ \ beta ^ * $. Comme scénario extrême, en considérant ce qui suit:

Avec $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, mettez $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ comme support de $ \ beta ^ * $. Considérons lestimateur « oracle » $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ qui est le groupe lasso avec deux groupes – un le vrai support et un le complément. Soit $ \ lambda_ {max} $ la plus petite valeur de $ \ lambda $ qui rend $ \ hat {\ beta} = 0 $. En raison de la nature de la pénalité de lasso de groupe, nous savons qu’à $ \ lambda $ passe de $ \ lambda_ {max} $ à $ \ lambda_ {max} – \ epsilon $ (pour certains petits $ \ epsilon > 0 $), exactement un groupe entrera dans le support de $ \ hat {\ beta} $, qui est généralement considéré comme une estimation de $ S $. En raison de notre regroupement, avec une forte probabilité, le groupe sélectionné sera $ S $, et nous « aurons fait un travail parfait.

En pratique, nous ne sélectionnons pas les groupes aussi bien. Cependant, les groupes, bien quils soient plus fins que le scénario extrême ci-dessus, nous aideront toujours: le choix serait toujours fait entre un groupe de vraies covariables et un groupe de covariables fausses. Nous empruntons toujours de la force.

Ceci est formalisé ici . Ils montrent, sous certaines conditions, que la borne supérieure de la prédiction lerreur du lasso de groupe est inférieure à une limite inférieure de lerreur de prédiction du lasso ordinaire. Autrement dit, ils ont prouvé que le regroupement rend notre estimation meilleure.

Pour votre deuxième question: Le (simple) La pénalité de lasso est linéaire par morceaux, ce qui donne lieu au chemin de solution linéaire par morceaux. Intuitivement, dans le cas du lasso de groupe, la pénalité nest plus linéaire par morceaux, nous navons donc plus cette propriété. Une grande référence sur la linéarité par morceaux des chemins de solution est ici . Voir leur proposition 1. Soit $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ et $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Ils montrent que le chemin de solution du groupe lasso est linéaire si et seulement si $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ est morceau constante ewise. Bien sûr, ce nest pas parce que notre pénalité $ J $ a une courbure globale.

Commentaires

  • Cela a beaucoup de sens maintenant. Merci beaucoup pour votre réponse.
  • Jaime votre citation sur " la force demprunt. " Je souhaite que davantage de statistiques soient encadrées en termes de partage sélectif des informations.

Réponse

La réponse de Ben est le résultat le plus général. Mais la réponse intuitive au PO est motivée par le cas des prédicteurs catégoriels, qui sont généralement codés comme plusieurs variables fictives: une pour chaque catégorie. Il est logique dans de nombreuses analyses de considérer ces variables fictives (représentant un prédicteur catégoriel) ensemble plutôt que séparément.

Si vous avez une variable catégorielle avec, par exemple, cinq niveaux, un lasso droit peut en laisser deux dans et trois sur. Comment gérez-vous cela de manière raisonnée? Décider de voter? Utiliser littéralement les variables fictives au lieu de la catégorie la plus significative? Comment votre codage fictif affecte-t-il vos choix?

Comme on dit dans lintroduction de Le lasso de groupe pour la régression logistique , il mentionne:

Déjà pour le cas particulier de la régression linéaire lorsque non seulement des prédicteurs (facteurs) continus mais aussi catégoriels sont présents, la solution de lasso nest pas satisfaisante car elle ne fait que sélectionner variables indicatrices individuelles au lieu de facteurs entiers. De plus, la solution du lasso dépend de la façon dont les variables factices sont codées. Le choix de différents contrastes pour un prédicteur catégoriel produira des solutions différentes en général.

Comme le souligne Ben, il existe également des liens plus subtils entre les prédicteurs qui pourraient indiquer quils devraient être ensemble ou non. Mais les variables catégorielles sont les enfants du groupe lasso.

Commentaires

  • @Ben: Hmmm … Je peux ' Je comprends vraiment le premier commentaire de OP ', il semble que ' est une réponse à un commentaire maintenant supprimé ? La question elle-même et son titre – qui est ce que la plupart des téléspectateurs liront – semble être une question générale. Je ' Je supprimerai certainement ma réponse si la question et le titre sont remplacés par quelque chose à propos de " Quelles sont les applications non évidentes du lasso groupé au-delà du cas des variables catégorielles? "
  • Daccord. Jaime votre remarque sur la façon dont lutilisation du lasso (simple) sur les facteurs fait que les estimations dépendent du codage des facteurs! Je pensais auparavant que le groupe lasso nous donnait une sorte de " mesure de la parcimonie " au lieu dun " sparsity du paramètre " (cest-à-dire que nous devrions avoir à mesurer le facteur ou non – tous les niveaux doivent être sélectionnés ou aucun.)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *