Waarom groepslasso gebruiken in plaats van lasso?

Ik heb gelezen dat de groep-lasso wordt gebruikt voor variabele selectie en schaarsheid in een groep variabelen. Ik wil de intuïtie achter deze bewering weten.

Waarom heeft groepslasso de voorkeur boven lasso?
Waarom is het oplossingspad van de groepslasso niet stuksgewijs lineair?

Opmerkingen

Wat ik begrijp uit de Yuan en Lin (2006) dat lasso is ontworpen voor het selecteren van individuele variabelen en niet voor het selecteren van factoren. Dus lasso pakt het ANOVA-probleem aan waarbij het doel is om belangrijke hoofdeffecten en interacties te selecteren voor nauwkeurige voorspelling, wat neerkomt op selectie van groepen variabelen. Het andere voorbeeld is een optellend model met polynoom waarbij elke component wordt uitgedrukt als lineaire combinatie van basisfuncties van oorspronkelijk gemeten variabelen

Answer

Intuïtief gesproken kan de groepslasso de voorkeur hebben boven de lasso, omdat het ons een middel biedt om (een bepaald type) aanvullende informatie op te nemen in onze schatting voor de werkelijke coëfficiënt $ \ beta ^ * $. Als een extreem scenario, rekening houdend met het volgende:

Met $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, zet $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ als ondersteuning van $ \ beta ^ * $. Beschouw de “orakel” -schatter $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ wat de groepslasso is met twee groepen – één de ware steun en een de aanvulling. Laat $ \ lambda_ {max} $ de kleinste waarde zijn van $ \ lambda $, dat maakt $ \ hat {\ beta} = 0 $. Vanwege de aard van de groepslasso-penalty, weten we dat bij $ \ lambda $ van $ \ lambda_ {max} $ naar $ \ lambda_ {max} – \ epsilon $ (voor sommige kleine $ \ epsilon > 0 $), zal precies één groep $ \ hat {\ beta} $ steunen, wat in de volksmond wordt beschouwd als een schatting van $ S $. Vanwege onze groepering, met grote waarschijnlijkheid, zal de geselecteerde groep $ S $ bedragen, en we “hebben het perfect gedaan.

In de praktijk selecteren we de groepen niet zo goed. De groepen, ondanks dat ze fijner zijn dan het extreme scenario hierboven, zullen ons nog steeds helpen: de keuze zou nog steeds gemaakt worden tussen een groep echte covariaten en een groep onware covariaten. We “lenen nog steeds kracht.

Dit wordt hier geformaliseerd. Ze laten, onder bepaalde voorwaarden, zien dat dit een bovengrens is voor de voorspelling fout van de groep-lasso is lager dan een ondergrens voor de voorspellingsfout van de gewone lasso. Dat wil zeggen, ze hebben bewezen dat de groepering onze schatting beter doet.

Voor je tweede vraag: de (gewone) lassostraf is stuksgewijs lineair, en dit geeft aanleiding tot het stuksgewijs lineaire oplossingspad. Intuïtief, in het geval van de groepslasso, is de straf niet langer stuksgewijs lineair, dus we hebben deze eigenschap niet meer. is hier . Zie hun voorstel 1. Laat $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ en $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Ze laten zien dat het oplossingspad van de groepslasso lineair is als en slechts als $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ is piec ewise constant. Natuurlijk is het niet omdat onze straf $ J $ globale kromming heeft.

Opmerkingen

Het is nu heel logisch. Heel erg bedankt voor je antwoord.
Ik vind je citaat over " leenkracht leuk. " Ik zou willen dat er meer van Statistieken werd ingekaderd in termen van het selectief delen van informatie.

Antwoord

Bens antwoord is het meest algemene resultaat. Maar het intuïtieve antwoord op het OP wordt gemotiveerd door het geval van categorische voorspellers, die meestal worden gecodeerd als meerdere dummy-variabelen: één voor elke categorie. Het is in veel analyses zinvol om deze dummy-variabelen (die één categorische voorspeller vertegenwoordigen) samen te beschouwen in plaats van afzonderlijk.

Als je een categorische variabele hebt met bijvoorbeeld vijf niveaus, kan een rechte lasso er twee achterlaten in en drie uit. Hoe ga je hier principieel mee om? Beslissen om te stemmen? Gebruik letterlijk de dummy-variabelen in plaats van de meer zinvolle categorische? Hoe beïnvloedt uw dummy-codering uw keuzes?

Zoals ze zeggen in de inleiding van De groepslasso voor logistieke regressie , vermeldt het:

Reeds voor het speciale geval bij lineaire regressie wanneer niet alleen continue maar ook categorische voorspellers (factoren) aanwezig zijn, is de lasso-oplossing niet bevredigend omdat deze alleen selecteert individuele dummyvariabelen in plaats van hele factoren. Bovendien hangt de lasso-oplossing af van hoe de dummy-variabelen zijn gecodeerd. Het kiezen van verschillende contrasten voor een categorische voorspeller zal in het algemeen verschillende oplossingen opleveren.

Zoals Ben opmerkt, zijn er ook meer subtiele verbanden tussen voorspellers die erop kunnen duiden dat ze ofwel in of uit samen zouden moeten zijn. Maar categorische variabelen zijn het poster-kind voor groepslasso.

Reacties

@Ben: Hmmm … ik kan ' begrijpt de OP ' s eerste opmerking niet echt, het lijkt erop dat het ' een reactie is op een nu verwijderde opmerking ? De vraag zelf en de titel – wat de meeste kijkers zullen lezen – lijkt een algemene vraag te zijn. Ik ' zal zeker mijn antwoord verwijderen als de vraag en titel worden gewijzigd in iets over " Welke niet voor de hand liggende toepassingen zijn er voor gegroepeerde lasso buiten het geval van categorische variabelen? "
Oké. Ik hou van je punt over hoe het gebruik van (gewone) lasso op factoren ervoor zorgt dat de schattingen afhangen van de codering van de factoren! Ik dacht eerder dat de groeps-lasso ons een soort " sparsity " gaf in plaats van een " parameter sparsity " (dat wil zeggen dat we de factor moeten meten of niet – alle niveaus moeten worden geselecteerd of geen).

Opmerkingen

Answer

Opmerkingen

Antwoord

Reacties

Geef een reactie Antwoord annuleren