Hvorfor bruke gruppelasso i stedet for lasso?

Jeg har lest at gruppen lasso brukes til variabelvalg og sparsitet i en gruppe variabler. Jeg vil vite intuisjonen bak denne påstanden.

Hvorfor er gruppelasso foretrukket fremfor lasso?
Hvorfor er ikke gruppelassoløsningsstien stykkevis lineær?

Kommentarer

Det jeg forstår fra Yuan og Lin (2006) at lasso er designet for å velge individuelle variabler, ikke faktorvalg. Så lasso adresserer ANOVA-problemet der målet er å velge viktige hovedeffekter og interaksjoner for nøyaktig prediksjon som tilsvarer utvalg av variabler. Det andre eksemplet er av additiv modell med polynom der hver komponent uttrykkes som en lineær kombinasjon av basisfunksjoner av originale målte variabler

Svar

Intuitivt kan gruppen lasso foretrekkes fremfor lassoen, siden den gir et middel for oss å innlemme (en bestemt type) tilleggsinformasjon i vårt estimat for den sanne koeffisienten $ \ beta ^ * $. Som et ekstremt scenario, med tanke på følgende:

Med $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, sett $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ som støtte for $ \ beta ^ * $. Vurder «oracle» estimator $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ som er gruppen lasso med to grupper – en den sanne støtten og en komplement. La $ \ lambda_ {max} $ være den minste verdien av $ \ lambda $ som gir $ \ hat {\ beta} = 0 $. På grunn av arten av gruppelassostraffet, vet vi at på $ \ lambda $ beveger seg fra $ \ lambda_ {max} $ til $ \ lambda_ {max} – \ epsilon $ (for noen små $ \ epsilon > 0 $), vil nøyaktig en gruppe inngå støtte til $ \ hat {\ beta} $, som populært betraktes som et estimat på $ S $. Gjør grupperingen vår, med stor sannsynlighet, vil den valgte gruppen være $ S $, og vi har gjort en perfekt jobb.

I praksis velger vi ikke gruppene godt. Til tross for at de er finere enn det ekstreme scenariet ovenfor, vil gruppene fremdeles hjelpe oss: valget vil fortsatt tas mellom en gruppe sanne kovariater og en gruppe usanne kovariater. Vi låner fortsatt styrke.

Dette er formalisert her . De viser, under noen forhold, at den øvre grensen på spådommen feilen til gruppelassoen er lavere enn en nedre grense på predikasjonsfeilen til den enkle lassoen. Det vil si at de beviste at grupperingen gjør at vårt estimat gjør det bedre.

For ditt andre spørsmål: (vanlig) lasso penalty er stykkevis lineær, og dette gir opphav til den stykkevise lineære løsningsveien. Intuitivt, i gruppelasso-tilfellet, er ikke straffen lenger stykkevis lineær, så vi har ikke lenger denne egenskapen. En flott referanse på stykkevis linearitet av løsningsveier er her . Se deres forslag 1. La $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ og $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. De viser at løsningsstien til gruppelassoen er lineær hvis og bare hvis $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ høyre) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ er stykke evis konstant. Selvfølgelig er det ikke siden straffen vår $ J $ har global krumning.

Kommentarer

Det gir mye mening nå. Tusen takk for svaret ditt.
Jeg liker sitatet ditt om " lånestyrke. " Jeg skulle ønske at mer av statistikken ble innrammet når det gjelder selektiv deling av informasjon.

Svar

Bens svar er det mest generelle resultatet. Men det intuitive svaret på OP er motivert av tilfellet med kategoriske prediktorer, som vanligvis er kodet som flere dummyvariabler: en for hver kategori. Det er fornuftig i mange analyser å vurdere disse dummyvariablene (som representerer en kategorisk prediktor) sammen i stedet for hver for seg.

Hvis du har en kategorisk variabel med for eksempel fem nivåer, kan en rett lasso legge igjen to i og tre ute. Hvordan håndterer du dette på en prinsipiell måte? Bestem deg for å stemme? Bruk bokstavelig talt dummyvariablene i stedet for de mer meningsfulle kategoriske? Hvordan påvirker dummy-kodingen dine valg?

Som de sier innledningen til Gruppelassoen for logistisk regresjon , nevner den:

Allerede for det spesielle tilfellet i lineær regresjon når ikke bare kontinuerlige men også kategoriske prediktorer (faktorer) er til stede, er ikke lassoløsningen tilfredsstillende da den bare velger individuelle dummyvariabler i stedet for hele faktorer. Videre avhenger lassoløsningen av hvordan dummyvariablene er kodet. Å velge forskjellige kontraster for en kategorisk prediktor vil produsere forskjellige løsninger generelt.

Som Ben påpeker, er det også mer subtile koblinger mellom prediktorer som kan indikere at de enten skal være inn eller ut sammen. Men kategoriske variabler er plakatbarnet for gruppelasso.

Kommentarer

@Ben: Hmmm … Jeg kan ' forstår ikke OP ' sin første kommentar. Det ser ut til at det ' er et svar på en nå slettet kommentar ? Selve spørsmålet og tittelen – som er det de fleste seere vil lese – ser ut til å være et generelt spørsmål. Jeg ' Jeg vil helt sikkert slette svaret mitt hvis spørsmålet og tittelen endres til noe om " Hvilke ikke-åpenbare applikasjoner er det for gruppert lasso utover tilfellet med kategoriske variabler? "
Ok. Jeg liker poenget ditt om hvordan bruk av (vanlig) lasso på faktorer gjør at estimatene avhenger av kodingen av faktorene! Jeg har tidligere bare tenkt på gruppen lasso som å gi oss en slags " måling sparsity " i stedet for en " parameter sparsity " (dvs. vi må måle faktoren eller ikke – alle nivåer skal velges eller ingen.)

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Legg igjen en kommentar Avbryt svar