Přečetl jsem, že laso skupiny se používá pro výběr proměnných a řídkost ve skupině proměnných. Chci znát intuici za tímto tvrzením.

  • Proč je skupina laso upřednostňována před lasem?
  • Proč není cesta řešení skupiny laso po částech lineární?

Komentáře

  • Co chápu z Yuan a Lin (2006), že laso je navrženo pro výběr jednotlivých proměnných, nikoli pro výběr faktorů. Laso tedy řeší problém ANOVA, kde cílem je vybrat důležité hlavní efekty a interakce pro přesnou předpověď, která se rovná výběru skupin proměnných. Druhým příkladem je aditivní model s polynomem, kde je každá složka vyjádřena jako lineární kombinace základních funkcí původních měřených proměnných

Answer

Intuitivně řečeno lze laso skupiny preferovat před lasem, protože nám poskytuje způsob, jak do našeho odhadu skutečného koeficientu $ \ beta ^ * $ začlenit (určitý typ) další informace. Jako extrémní scénář zvažte následující:

S $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, vložte $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ jako podpora $ \ beta ^ * $. Zvažte „Oracle“ odhadce $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ což je skupinové laso se dvěma skupinami – jednou skutečnou podporu a jeden doplněk. Nechť $ \ lambda_ {max} $ je nejmenší hodnota $ \ lambda $, která činí $ \ hat {\ beta} = 0 $. Vzhledem k povaze skupinového lasso trestu víme, že se $ \ lambda $ pohybuje z $ \ lambda_ {max} $ na $ \ lambda_ {max} – \ epsilon $ (pro některé malé $ \ epsilon > 0 $), právě jedna skupina vstoupí do podpory $ \ hat {\ beta} $, která je populárně považována za odhad $ S $. Kvůli našemu seskupení bude s vysokou pravděpodobností vybraná skupina $ S $ a my „odvedli jsme perfektní práci.

V praxi to skupiny nevybíráme dobře. Skupiny, přestože jsou jemnější než výše uvedený extrémní scénář, nám přesto pomohou: stále by se měla volit mezi skupinou skutečných proměnných a skupinou nepravdivých proměnných. Stále si půjčujeme sílu.

Toto je formalizováno zde . Za určitých podmínek ukazují, že horní hranice predikce chyba skupiny laso je nižší než dolní mez predikční chyby obyčejného lasa. To znamená, že prokázaly, že seskupení zlepšuje náš odhad.

Pro vaši druhou otázku: The (plain) pokuta laso je po částech lineární, což vede ke vzniku cesty po částech lineárního řešení. Intuitivně v případě skupinového lasa již trest není po částech lineární, takže tuto vlastnost již nemáme. Skvělý odkaz na po částech lineárnost cest řešení je zde . Viz jejich návrh 1. Nechť $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ a $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Ukazují, že cesta řešení ve skupině laso je lineární právě tehdy, když $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ je piec ewise konstantní. Samozřejmě to není, protože naše pokuta $ J $ má globální zakřivení.

Komentáře

  • To teď dává velký smysl. Díky moc pro vaši odpověď.
  • Líbí se mi váš citát o " výpůjční síle. " Přeji si, aby bylo sestaveno více statistik pokud jde o selektivní sdílení informací.

Odpověď

Benova odpověď je nejobecnějším výsledkem. Intuitivní odpověď na OP je ale motivována případem kategorických prediktorů, které jsou obvykle kódovány jako více fiktivních proměnných: jedna pro každou kategorii. V mnoha analýzách má smysl uvažovat o těchto fiktivních proměnných (představujících jeden kategorický prediktor) společně, nikoli samostatně.

Pokud máte kategorickou proměnnou s, řekněme, pěti úrovněmi, rovné laso může nechat dvě v a tři ven. Jak to řešíte zásadově? Rozhodnout se hlasovat? Doslova použít fiktivní proměnné namísto smysluplnějších kategorií? Jak ovlivní vaše fiktivní kódování vaše volby?

Jak se říká v úvodu Skupina laso pro logistickou regresi uvádí:

Již pro speciální případ lineární regrese, kdy jsou přítomny nejen spojité, ale i kategorické prediktory (faktory), řešení laso není uspokojivé, protože pouze vybírá jednotlivé figuríny místo celých faktorů. Kromě toho řešení laso závisí na tom, jak jsou figuríny kódovány. Výběr různých kontrastů pro kategorický prediktor obecně vytvoří různá řešení.

Jak Ben zdůrazňuje, mezi prediktory existují také jemnější vazby, které by mohly naznačovat, že by měly být buď společně, nebo společně. Ale kategorické proměnné jsou potomkem plakátu pro skupinové laso.

Komentáře

  • @Ben: Hmmm … mohu ' Opravdu nerozumím prvnímu komentáři OP ' Vypadá to, že ' reaguje na nyní smazaný komentář ? Samotná otázka a její název – což si přečte většina diváků – se jeví jako obecná otázka. ' Určitě smažu svoji odpověď, pokud se otázka a název změní na něco o " Jaké zjevné aplikace existují pro seskupené laso mimo případ kategorických proměnných? "
  • Dobře. Líbí se mi váš názor na to, jak použití (prostého) lasa na faktory činí odhady závislé na kódování faktorů! Dříve jsem myslel jen na to, že skupinové laso nám místo iv id = „4f16eac70d“ dává jakýsi " měřící sparsity " >

parametr sparsity " (tj. měli bychom faktor měřit nebo ne – všechny úrovně by měly být vybrány nebo žádné.)

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *