Jag har läst att grupp lasso används för variabelval och sparsity i en grupp variabler. Jag vill veta intuitionen bakom detta påstående.
- Varför är grupplasso att föredra framför lasso?
- Varför är grupplassolösningsvägen inte linjärt?
Kommentarer
- Vad jag förstår från Yuan och Lin (2006) att lasso är utformat för att välja enskilda variabler, inte faktorval. Så lasso hanterar ANOVA-problemet där målet är att välja viktiga huvudeffekter och interaktioner för exakt förutsägelse vilket motsvarar val av grupper av variabler. Det andra exemplet är en additiv modell med polynom där varje komponent uttrycks som en linjär kombination av basfunktioner av ursprungliga uppmätta variabler
Svar
Intuitivt kan gruppen lasso föredras framför lasso eftersom det ger oss ett sätt att införliva (en viss typ av) ytterligare information i vår uppskattning av den sanna koefficienten $ \ beta ^ * $. Som ett extremt scenario med tanke på följande:
Med $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, sätt $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ som stöd för $ \ beta ^ * $. Tänk på ”oracle” uppskattaren $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ höger), $$ som är gruppen lasso med två grupper – en det sanna stödet och ett komplement. Låt $ \ lambda_ {max} $ vara det minsta värdet på $ \ lambda $ som gör $ \ hat {\ beta} = 0 $. På grund av gruppens lassostraff vet vi att vid $ \ lambda $ flyttar från $ \ lambda_ {max} $ till $ \ lambda_ {max} – \ epsilon $ (för några små $ \ epsilon > 0 $) kommer exakt en grupp att stödja $ \ hat {\ beta} $, vilket populärt betraktas som en uppskattning för $ S $. På grund av gör vår gruppering med hög sannolikhet att den valda gruppen blir $ S $, och vi kommer att ha gjort ett perfekt jobb.
I praktiken väljer vi inte grupperna så bra. Grupperna, trots att de är finare än det extrema scenariot ovan, kommer dock fortfarande att hjälpa oss: valet skulle fortfarande göras mellan en grupp av verkliga kovariater och en grupp av osanna kovariater. Vi lånar fortfarande styrka.
Detta är formaliserat här . De visar, under vissa förhållanden, att den övre gränsen för förutsägelsen fel i grupp lasso är lägre än en nedre gräns på prediktionsfelet för vanlig lasso. Det vill säga de bevisade att grupperingen gör att vår uppskattning blir bättre.
För din andra fråga: (vanlig) lasso-straff är styckvis linjär, och detta ger upphov till den styckvisa linjära lösningsvägen. Intuitivt, i grupplasso-fallet, är straffet inte längre bitvis linjärt, så vi har inte längre den här egenskapen. En bra referens för styckvis linjäritet av lösningsvägar är här . Se deras förslag 1. Låt $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ och $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. De visar att lösningsvägen för grupp lasso är linjär om och bara om $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ höger) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ är bit evis konstant. Naturligtvis är det inte eftersom vårt straff $ J $ har global krökning.
Kommentarer
- Det är mycket vettigt nu. Tack så mycket för ditt svar.
- Jag gillar ditt citat om " lånestyrka. " Jag önskar att mer av statistiken var inramad när det gäller att selektivt dela information.
Svar
Bens svar är det mest allmänna resultatet. Men det intuitiva svaret på OP motiveras av fallet med kategoriska prediktorer, som vanligtvis kodas som flera dummyvariabler: en för varje kategori. Det är vettigt i många analyser att beakta dessa dummyvariabler (som representerar en kategorisk prediktor) tillsammans snarare än separat.
Om du har en kategorisk variabel med, säg fem nivåer, kan en rak lasso lämna två i och tre ut. Hur hanterar du detta på ett principiellt sätt? Besluta att rösta? Använd bokstavligen variablerna istället för de mer meningsfulla kategoriska? Hur påverkar din dummy-kodning dina val?
Som de säger i inledningen av Grupp lasso för logistisk regression nämner den:
Redan för specialfallet i linjär regression när inte bara kontinuerliga utan även kategoriska prediktorer (faktorer) är närvarande är lassolösningen inte tillfredsställande eftersom den bara väljer individuella dummyvariabler istället för hela faktorer. Dessutom beror lassolösningen på hur dummyvariablerna kodas. Att välja olika kontraster för en kategorisk prediktor ger olika lösningar i allmänhet.
Som Ben påpekar finns det också mer subtila länkar mellan prediktorer som kan indikera att de antingen ska vara in eller ut tillsammans. Men kategoriska variabler är affischbarnet för grupplaso.
Kommentarer
- @Ben: Hmmm … Jag kan ' förstår inte riktigt OP ' s första kommentar. Det ser ut som att det ' är ett svar på en nu borttagen kommentar ? Frågan i sig och dess titel – vilket är vad de flesta tittare kommer att läsa – verkar vara en allmän fråga. Jag ' Jag raderar verkligen mitt svar om frågan och titeln ändras till något om " Vilka icke-uppenbara applikationer finns det för grupperad lasso utöver fallet med kategoriska variabler? "
- Okej. Jag gillar din poäng om hur man använder (vanlig) lasso på faktorer gör att uppskattningarna beror på kodningen av faktorerna! Jag tänkte tidigare bara på grupplassen som att ge oss ett slags " måttgleshet " istället för en " parameter sparsity " (dvs vi måste mäta faktorn eller inte – alla nivåer ska väljas eller inga.)