Jeg har læst, at gruppelassoen bruges til variabelvalg og sparsity i en gruppe af variabler. Jeg vil gerne vide intuitionen bag denne påstand.

  • Hvorfor foretrækkes gruppe lasso frem for lasso?
  • Hvorfor er gruppen lasso løsning sti ikke stykkevis lineær?

Kommentarer

  • Hvad jeg forstår fra Yuan og Lin (2006), at lasso er designet til at vælge individuelle variabler, ikke faktorvalg. Så lasso adresserer ANOVA-problemet, hvor målet er at vælge vigtige hovedeffekter og interaktioner for nøjagtig forudsigelse, hvilket svarer til valg af grupper af variabler. Det andet eksempel er en additiv model med polynom, hvor hver komponent udtrykkes som en lineær kombination af basisfunktioner af originale målte variabler

Svar

Intuitivt kan gruppe lasso foretrækkes frem for lasso, da det giver os et middel til at inkorporere (en bestemt type) yderligere information i vores estimat for den sande koefficient $ \ beta ^ * $. Som et ekstremt scenario overvejer følgende:

Med $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, sæt $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ som understøttelse af $ \ beta ^ * $. Overvej estimatoren “oracle” $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ som er gruppen lasso med to grupper – en den sande støtte og et supplement. Lad $ \ lambda_ {max} $ være den mindste værdi af $ \ lambda $, der gør $ \ hat {\ beta} = 0 $. På grund af karakteren af gruppelassostraffet ved vi, at ved $ \ lambda $ bevæger sig fra $ \ lambda_ {max} $ til $ \ lambda_ {max} – \ epsilon $ (for nogle små $ \ epsilon > 0 $), nøjagtigt en gruppe vil støtte $ $ hat {\ beta} $, som populært betragtes som et skøn på $ S $. På grund af vores gruppering med høj sandsynlighed vil den valgte gruppe være $ S $, og vi har udført et perfekt stykke arbejde.

I praksis vælger vi ikke grupperne så godt. Til trods for at de er finere end det ekstreme scenarie ovenfor, vil grupperne dog stadig hjælpe os: valget vil stadig blive taget mellem en gruppe ægte kovariater og en gruppe usande kovariater. Vi låner stadig styrke.

Dette er formaliseret her . De viser, under visse betingelser, at den øverste grænse for forudsigelsen gruppens lassos fejl er lavere end en nedre grænse for den almindelige lassos forudsigelsesfejl. Det vil sige, de beviste, at grupperingen gør vores estimering bedre.

For dit andet spørgsmål: (almindelig) lasso-straf er stykkevis lineær, og dette giver anledning til den stykkevise lineære løsningssti. Intuitivt, i gruppelasso-sagen, er sanktionen ikke længere stykkevis lineær, så vi har ikke længere denne egenskab. En god reference på stykkevis linearitet af løsningsstier er her . Se deres forslag 1. Lad $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ og $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. De viser, at løsningsstien for gruppelassoen er lineær, hvis og kun hvis $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ højre) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ er stykke ewise konstant. Selvfølgelig er det ikke, da vores straf $ J $ har global krumning.

Kommentarer

  • Det giver meget mening nu. Mange tak til dit svar.
  • Jeg kan godt lide dit citat om " lånestyrke. " Jeg ville ønske, at mere af statistikken blev indrammet med hensyn til selektiv deling af oplysninger.

Svar

Bens svar er det mest generelle resultat. Men det intuitive svar på OP er motiveret af tilfældet med kategoriske forudsigere, som normalt er kodet som flere dummyvariabler: en for hver kategori. Det er fornuftigt i mange analyser at overveje disse dummyvariabler (der repræsenterer en kategorisk forudsigelse) sammen snarere end hver for sig.

Hvis du har en kategorisk variabel med for eksempel fem niveauer, kan en lige lasso efterlade to i og tre ud. Hvordan håndterer du dette på en principiel måde? Beslutter du at stemme? Brug bogstaveligt talt dummyvariablerne i stedet for de mere meningsfulde kategoriske? Hvordan påvirker din dummy-kodning dine valg?

Som de siger i indledningen til Gruppelassoen til logistisk regression , nævnes den:

Allerede til det specielle tilfælde i lineær regression, når ikke kun kontinuerlige men også kategoriske forudsigere (faktorer) er til stede, er lasso-løsningen ikke tilfredsstillende, da den kun vælger individuelle dummyvariabler i stedet for hele faktorer. Desuden afhænger lasso-løsningen af, hvordan dummy-variablerne er kodet. At vælge forskellige kontraster for en kategorisk forudsigelse vil generere forskellige løsninger generelt.

Som Ben påpeger, er der også mere subtile forbindelser mellem forudsigere, der kan indikere, at de enten skal være ind eller ud sammen. Men kategoriske variabler er plakatbarnet for gruppelasso.

Kommentarer

  • @Ben: Hmmm … Jeg kan ' Forstår ikke OP ' s første kommentar. Det ser ud til at det ' er et svar på en nu slettet kommentar ? Selve spørgsmålet og dets titel – som de fleste seere vil læse – synes at være et generelt spørgsmål. Jeg ' Jeg sletter bestemt mit svar, hvis spørgsmålet og titlen ændres til noget om " Hvilke ikke-indlysende applikationer er der til grupperet lasso ud over tilfældet med kategoriske variabler? "
  • Okay. Jeg kan godt lide dit pointe om, hvordan brugen af (almindelig) lasso på faktorer gør, at estimaterne afhænger af kodningen af faktorerne! Jeg har tidligere lige tænkt på gruppelassoen som at give os en slags " måling sparsity " i stedet for en " parameter sparsity " (dvs. vi skulle være nødt til at måle faktoren eller ikke – alle niveauer skal vælges eller ingen.)

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *