Li que o laço de grupo é usado para seleção de variável e dispersão em um grupo de variáveis. Quero saber a intuição por trás dessa afirmação.

  • Por que o laço de grupo é preferido ao laço?
  • Por que o caminho da solução do laço de grupo não é linear por partes?

Comentários

  • O que eu entendo do Yuan e Lin (2006) que o laço é projetado para selecionar variáveis individuais, não seleção de fator. Assim, lasso aborda o problema ANOVA, onde o objetivo é selecionar importantes efeitos principais e interações para uma previsão precisa, o que equivale à seleção de grupos de variáveis. O outro exemplo é o modelo aditivo com polinômio onde cada componente é expresso como uma combinação linear das funções básicas das variáveis medidas originais

Resposta

Falando intuitivamente, o laço de grupo pode ser preferível ao laço, uma vez que fornece um meio para incorporarmos (certo tipo de) informações adicionais em nossa estimativa para o coeficiente verdadeiro $ \ beta ^ * $. Como um cenário extremo, considerando o seguinte:

Com $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, coloque $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ como o suporte de $ \ beta ^ * $. Considere o estimador “oráculo” $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ que é o laço de grupo com dois grupos – um o verdadeiro suporte e um o complemento. Seja $ \ lambda_ {max} $ o menor valor de $ \ lambda $ que faz $ \ hat {\ beta} = 0 $. Devido à natureza da penalidade de laço de grupo, sabemos que em $ \ lambda $ se move de $ \ lambda_ {max} $ para $ \ lambda_ {max} – \ epsilon $ (para alguns $ \ epsilon > 0 $), exatamente um grupo aceitará $ \ hat {\ beta} $, que é popularmente considerado como uma estimativa de $ S $. Devido ao nosso agrupamento, com alta probabilidade, o grupo selecionado será de $ S $, e faremos um trabalho perfeito.

Na prática, não selecionamos os grupos tão bem. No entanto, os grupos, apesar de serem mais refinados do que o cenário extremo acima, ainda vão nos ajudar: a escolha ainda seria feita entre um grupo de covariáveis verdadeiras e um grupo de covariáveis falsas. Ainda estamos pedindo força.

Isso é formalizado aqui . Eles mostram, sob algumas condições, que o limite superior da previsão o erro do laço de grupo é menor do que um limite inferior do erro de previsão do laço simples. Ou seja, eles provaram que o agrupamento faz nossa estimativa funcionar melhor.

Para sua segunda pergunta: O (simples) a penalidade de laço é linear por partes, e isso dá origem ao caminho da solução linear por partes. Intuitivamente, no caso do laço de grupo, a penalidade não é mais linear por partes, portanto, não temos mais essa propriedade. Uma grande referência sobre linearidade por partes de caminhos de solução está aqui . Veja sua proposição 1. Seja $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ e $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Eles mostram que o caminho de solução do laço de grupo é linear se e somente se $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ é remendo ewise constante. Claro, não é, já que nossa penalidade $ J $ tem curvatura global.

Comentários

  • Faz muito sentido agora. Muito obrigado para sua resposta.
  • Gosto da sua citação sobre " força de empréstimo. " Gostaria que mais estatísticas fossem enquadradas em termos de compartilhamento seletivo de informações.

Resposta

A resposta de Ben “é o resultado mais geral. Mas a resposta intuitiva ao OP é motivada pelo caso de preditores categóricos, que geralmente são codificados como múltiplas variáveis dummy: um para cada categoria. Faz sentido em muitas análises considerar essas variáveis fictícias (representando um preditor categórico) juntas, em vez de separadamente.

Se você tiver uma variável categórica com, digamos, cinco níveis, um laço reto pode deixar dois em e três fora. Como você lida com isso de uma maneira baseada em princípios? Decidiu votar? Utilizar literalmente as variáveis dummy em vez das categóricas mais significativas? Como sua codificação fictícia afeta suas escolhas?

Como dizem na introdução de O laço de grupo para regressão logística , ele menciona:

Já para o caso especial na regressão linear quando não apenas preditores contínuos, mas também categóricos (fatores) estão presentes, a solução de laço não é satisfatória, pois ela apenas seleciona variáveis dummy individuais em vez de fatores inteiros. Além disso, a solução de laço depende de como as variáveis dummy são codificadas. A escolha de diferentes contrastes para um preditor categórico produzirá diferentes soluções em geral.

Como Ben aponta, também existem ligações mais sutis entre preditores que podem indicar que eles deveriam estar dentro ou fora juntos. Mas as variáveis categóricas são o garoto-propaganda do laço de grupo.

Comentários

  • @Ben: Hmmm … eu posso ' t realmente entendo o primeiro comentário do OP ' s, parece que ' sa resposta a um comentário agora excluído ? A própria pergunta e seu título – que é o que a maioria dos espectadores vai ler – parece ser uma questão geral. Eu ' certamente excluirei minha resposta se a pergunta e o título forem alterados para algo sobre " Quais aplicativos não óbvios existem para agrupar além do caso de variáveis categóricas? "
  • Tudo bem. Gosto do seu ponto sobre como o uso do laço (simples) em fatores faz com que as estimativas dependam da codificação dos fatores! Anteriormente, eu pensava no laço de grupo como uma espécie de " dispersão de medição " em vez de " parâmetro sparsity " (ou seja, devemos medir o fator ou não – todos os níveis devem ser selecionados ou nenhum.)

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *