Ho letto che il lazo di gruppo viene utilizzato per la selezione e la scarsità di variabili in un gruppo di variabili. Voglio conoscere lintuizione alla base di questa affermazione.

  • Perché il lazo di gruppo è preferito al lazo?
  • Perché il percorso della soluzione del lazo di gruppo non è lineare a tratti?

Commenti

  • Quello che ho capito da Yuan e Lin (2006) che il lazo è progettato per selezionare variabili individuali non per selezione di fattori. Quindi lasso affronta il problema ANOVA in cui lobiettivo è selezionare importanti effetti principali e interazioni per una previsione accurata che equivale alla selezione di gruppi di variabili. Laltro esempio è un modello additivo con polinomio in cui ogni componente è espresso come combinazione lineare di funzioni base di variabili misurate originali

Risposta

Intuitivamente parlando, il lazo di gruppo può essere preferito al lazo poiché ci fornisce un mezzo per incorporare (un certo tipo di) informazioni aggiuntive nella nostra stima per il vero coefficiente $ \ beta ^ * $. Come scenario estremo, considerando quanto segue:

Con $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, metti $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ come supporto di $ \ beta ^ * $. Considera lo stimatore “oracolo” $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ che è il lazo di gruppo con due gruppi – uno il vero supporto e uno il complemento. Sia $ \ lambda_ {max} $ il valore più piccolo di $ \ lambda $ che rende $ \ hat {\ beta} = 0 $. A causa della natura della penalità del lazo di gruppo, sappiamo che in $ \ lambda $ si sposta da $ \ lambda_ {max} $ a $ \ lambda_ {max} – \ epsilon $ (per qualche piccolo $ \ epsilon > 0 $), esattamente un gruppo entrerà a far parte del supporto di $ \ hat {\ beta} $, che è comunemente considerato una stima per $ S $. A causa del nostro raggruppamento, con alta probabilità, il gruppo selezionato sarà $ S $, e avremo fatto un lavoro perfetto.

In pratica, non selezioniamo i gruppi così bene. Tuttavia, i gruppi, nonostante siano più fini dello scenario estremo sopra, ci aiuteranno comunque: la scelta sarebbe comunque fatta tra un gruppo di vere covariate e un gruppo di covariate non vere. Stiamo ancora prendendo in prestito forza.

Questo è formalizzato qui . Mostrano, in alcune condizioni, che il limite superiore della previsione lerrore del lazo di gruppo è inferiore a un limite inferiore sullerrore di previsione del lazo semplice. Cioè, hanno dimostrato che il raggruppamento migliora la nostra stima.

Per la tua seconda domanda: il (semplice) La penalità al lazo è lineare a tratti, e questo dà origine al percorso di soluzione lineare a tratti. Intuitivamente, nel caso del lazo di gruppo, la penalità non è più lineare a tratti, quindi non abbiamo più questa proprietà. Un ottimo riferimento sulla linearità a tratti dei percorsi di soluzione è qui . Vedi la loro proposta 1. Siano $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ e $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Mostrano che il percorso della soluzione del lazo di gruppo è lineare se e solo se $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ è piec Ewise costante. Ovviamente non lo è poiché la nostra penalità $ J $ ha una curvatura globale.

Commenti

  • Ora ha molto senso. Grazie mille per la tua risposta.
  • Mi piace la tua citazione sulla " forza del prestito. " Vorrei che fosse incorniciato più statistiche in termini di condivisione selettiva delle informazioni.

Risposta

La risposta di Ben è il risultato più generale. Ma la risposta intuitiva allOP è motivata dal caso dei predittori categoriali, che di solito sono codificati come più variabili fittizie: una per ogni categoria. In molte analisi ha senso considerare queste variabili fittizie (che rappresentano un predittore categoriale) insieme piuttosto che separatamente.

Se si dispone di una variabile categorica con, diciamo, cinque livelli, un lazo diretto potrebbe lasciarne due in e tre fuori. Come gestisci questo in modo di principio? Decidi di votare? Usare letteralmente le variabili fittizie invece di quelle categoriali più significative? In che modo la tua codifica fittizia influisce sulle tue scelte?

Come si dice nellintroduzione di Il lazo di gruppo per la regressione logistica , menziona:

Già nel caso speciale della regressione lineare quando sono presenti predittori (fattori) non solo continui ma anche categoriali, la soluzione lazo non è soddisfacente in quanto seleziona solo singole variabili fittizie invece di fattori interi. Inoltre, la soluzione lazo dipende da come vengono codificate le variabili fittizie. La scelta di contrasti diversi per un predittore categoriale produrrà soluzioni diverse in generale.

Come sottolinea Ben, ci sono anche collegamenti più sottili tra predittori che potrebbero indicare che dovrebbero essere dentro o fuori insieme. Ma le variabili categoriali sono il poster secondario del lazo di gruppo.

Commenti

  • @Ben: Hmmm … I can ' t capire veramente il primo commento dellOP ', sembra che ' sia una risposta a un commento ora eliminato ? La domanda stessa e il suo titolo – che è ciò che la maggior parte degli spettatori leggerà – sembra essere una domanda generale. ' eliminerò sicuramente la mia risposta se la domanda e il titolo vengono modificati in qualcosa su " Quali applicazioni non ovvie sono disponibili per il lazo raggruppato oltre il caso delle variabili categoriali? "
  • Va bene. Mi piace il tuo punto di vista su come luso del lazo (semplice) sui fattori fa dipendere le stime dalla codifica dei fattori! In precedenza pensavo che il lazo di gruppo ci fornisse una sorta di " scarsità di misurazione " invece di un " parametro scarsità " (cioè dovremmo misurare il fattore o no – tutti i livelli dovrebbero essere selezionati o nessuno.)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *