Olvastam, hogy a csoport lasszót használják a változók kiválasztására és ritkaságára egy változócsoportban. Szeretném megismerni az állítás mögött rejlő intuíciót.

  • Miért előnyösebb a csoportos lasszó a lasszó helyett?
  • Miért nem darabonként lineáris a csoportos lasszó megoldás útja?

Megjegyzések

  • Amit megértek Yuan és Lin (2006) alapján, hogy a lasszót az egyes változók kiválasztására tervezték, nem a tényezők kiválasztására. Tehát a lasso az ANOVA problémával foglalkozik, ahol a fontos fő hatások és kölcsönhatások kiválasztása a pontos előrejelzéshez, amely a változók csoportjainak kiválasztását jelenti. A másik példa egy additív modell, polinommal, ahol minden komponenst az eredeti mért változók bázisfüggvényeinek lineáris kombinációjaként fejezünk ki.

Válasz

Intuitív értelemben a csoportos lasszó előnyben részesíthető a lasszóval szemben, mivel ez lehetőséget nyújt arra, hogy a $ \ beta ^ * $ valódi együttható becslésébe beépítsünk (egy bizonyos típusú) további információt. Szélsőséges forgatókönyvként a következőket figyelembe véve:

A $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $ paraméterrel tegye a következőt: $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ a $ \ beta ^ * $ támogatásaként. Tekintsük a “orákulum” becslőt $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ jobbra), $$ amely két csoportos lasso csoport – egy az igazi támogatás és egy a kiegészítés. Legyen a $ \ lambda_ {max} $ a $ \ lambda $ legkisebb értéke, amely a $ \ hat {\ beta} = 0 $ értéket adja. A csoportos lasszó büntetés jellege miatt tudjuk, hogy $ \ lambda $ -nál $ \ lambda_ {max} $ -ról $ \ lambda_ {max} – \ epsilon $ -ra vált (néhány kis $ \ epsilon > 0 $), pontosan egy csoport lép be a $ \ hat {\ beta} $ támogatásába, amelyet népszerûen a $ S $ becslésének tekintenek. A csoportosításunk miatt nagy valószínűséggel a kiválasztott csoport $ S $ lesz, és mi nem fogunk tökéletes munkát végezni.

A gyakorlatban nem választjuk ki ilyen jól a csoportokat. A csoportok azonban annak ellenére, hogy finomabbak, mint a fenti extrém forgatókönyv, mégis segítenek nekünk: a választás még mindig az igazi kovariánsok és a valótlan kovariánsok csoportja között történne. Még mindig hitelt veszünk fel.

Ezt formalizálják itt . Bizonyos feltételek mellett azt mutatják, hogy az előrejelzés felső határa a csoport lasszó hibája alacsonyabb, mint a sima lasszó előrejelzési hibájának alsó határa. Vagyis bebizonyították, hogy a csoportosítással a becslésünk jobban megy.

A második kérdésedhez: A (sima) a lasso büntetés darabonként lineáris, és ez adja meg a darabonkénti lineáris megoldás útvonalát. Intuitív módon, a csoportos lasso esetben a büntetés már nem darabonkénti lineáris, így már nincs ez a tulajdonságunk. Nagyszerű hivatkozás a megoldási útvonalak darabos linearitására itt található. Lásd az 1. javaslatukat. Legyen $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ és $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Ezek azt mutatják, hogy a csoport lasszó megoldási útvonala akkor és csak akkor lineáris, ha $ $ \ bal ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ is darab ewise állandó. Természetesen nem, mivel a $ J $ büntetésünk globális görbületű.

Megjegyzések

  • Ez most sok értelmet nyújt. Köszönöm szépen a válaszodhoz.
  • Tetszik az ajánlatod a " hitelfelvételről. " Szeretném, ha több Statisztika kerülne keretbe az információk szelektív megosztása szempontjából.

Válasz

Ben válasza a legáltalánosabb eredmény. De az OP-ra adott intuitív választ a kategorikus prediktorok esete motiválja, amelyeket általában több dummy változóként kódolnak: minden kategóriához egyet. Sok elemzésben van értelme ezeket a dummy változókat (amelyek egy kategorikus prediktort képviselnek) együtt, nem pedig külön-külön figyelembe venni.

Ha van kategorikus változója, mondjuk öt szinttel, akkor egy egyenes lasszó kettőt hagyhat három ki. Hogyan kezeli ezt elvi módon? Úgy dönt, hogy szavaz? Szó szerint használja a dummy változókat az értelmesebb kategorikus helyett? Hogyan befolyásolja a dummy kódolásod a döntéseidet?

Ahogy mondják a A logosz regresszió csoportos lasza bevezetőjében, a következőket említi:

Már a lineáris regresszió speciális esetére, amikor nemcsak folyamatos, hanem kategorikus prediktorok (faktorok) is jelen vannak, a lasszó megoldás nem kielégítő, mivel csak kiválaszt egyéni tényezők helyett dummy változók. Ezenkívül a lasszó megoldás attól függ, hogy a dummy változók hogyan vannak kódolva. Ha kategorikus prediktorhoz különböző kontrasztokat választ, általában különböző megoldásokat fog eredményezni.

Amint Ben rámutat, a prediktorok között finomabb kapcsolatok is vannak, amelyek azt jelezhetik, hogy vagy együtt kell lenniük, vagy ki. De a kategorikus változók jelentik a csoport lasszó poszter gyermekét.

Megjegyzések

  • @Ben: Hmmm … Tudok ' nem igazán érti az OP ' első megjegyzését. Úgy tűnik, hogy ' válasz egy most törölt megjegyzésre ? Maga a kérdés és annak címe – amit a legtöbb néző el fog olvasni – általános kérdésnek tűnik. Minden bizonnyal ' törlöm a válaszomat, ha a kérdést és a címet valamire módosítják " Milyen nem nyilvánvaló alkalmazások vannak az lasszók csoportosítására túl a kategorikus változók esetében? "
  • Oké. Tetszik az a véleményed arról, hogy a (sima) lasszó tényezőkön való használata hogyan teszi a becsléseket a tényezők kódolásától függővé! Korábban arra gondoltam, hogy a csoportos lasszó egyfajta " mérési ritkaságot ad nekünk " a paraméter sparsity " (azaz meg kell mérnünk a faktort vagy sem – az összes szintet ki kell választani, vagy egyiket sem.)

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük