Am citit că lasso-ul grupului este utilizat pentru selectarea variabilelor și raritatea într-un grup de variabile. Vreau să știu intuiția din spatele acestei afirmații.
- De ce este preferat lasso de grup decât lasso?
- De ce calea soluției de lasso de grup nu este liniară?
Comentarii
- Ce înțeleg din Yuan și Lin (2006) că lasso este conceput pentru selectarea variabilelor individuale, nu selectarea factorilor. Deci, lazo se adresează problemei ANOVA, unde scopul este de a selecta efecte principale și interacțiuni importante pentru o predicție exactă, ceea ce echivalează cu selecția grupurilor de variabile. Celălalt exemplu este de model aditiv cu polinom în care fiecare componentă este exprimată ca o combinație liniară de funcții de bază ale variabilelor măsurate originale
Răspuns
Intuitiv vorbind, grupul lasso poate fi preferat lasso-ului, deoarece ne oferă un mijloc de a încorpora (un anumit tip de) informații suplimentare în estimarea noastră pentru adevăratul coeficient $ \ beta ^ * $. Ca scenariu extrem, luând în considerare următoarele:
Cu $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, puneți $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ ca suport pentru $ \ beta ^ * $. Luați în considerare estimatorul „oracol” $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ care este grupul lasso cu două grupuri – unul adevăratul suport și unul complementul. Fie $ \ lambda_ {max} $ să fie cea mai mică valoare a $ \ lambda $ care face $ \ hat {\ beta} = 0 $. Datorită naturii penalizării lazo a grupului, știm că la $ \ lambda $ se trece de la $ \ lambda_ {max} $ la $ \ lambda_ {max} – \ epsilon $ (pentru unele $ \ epsilon 0 $), exact un grup va intra în sprijinul $ \ hat {\ beta} $, care este considerat popular ca o estimare pentru $ S $. Datorită grupării noastre, cu probabilitate ridicată, grupul selectat va fi de $ S $ și vom „face o treabă perfectă.
În practică, nu selectăm bine grupurile. Cu toate acestea, grupurile, în ciuda faptului că sunt mai fine decât scenariul extrem de mai sus, ne vor ajuta în continuare: alegerea s-ar face totuși între un grup de covariate adevărate și un grup de covariate neadevărate. „Împrumutăm încă puterea.
Acest lucru este formalizat aici . Acestea arată, în anumite condiții, că limita superioară a predicției eroarea lasso-ului de grup este mai mică decât limita inferioară a erorii de predicție a lasso-ului simplu. Adică au dovedit că gruparea face ca estimarea noastră să fie mai bună.
Pentru a doua întrebare: (plain) penalizarea lasso este liniară în bucăți, iar acest lucru dă naștere la calea soluției liniare în bucăți. Intuitiv, în cazul grupului lasso, penalizarea nu mai este liniară în bucăți, deci nu mai avem această proprietate. este aici . Consultați propunerea lor 1. Fie $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ și $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Acestea arată că calea soluției lasso-ului grupului este liniară dacă și numai dacă $$ \ a rămas ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ este piec ewise constant. Bineînțeles, nu este, deoarece penalizarea noastră $ J $ are curbură globală.
Comentarii
- Acum are mult sens. Mulțumesc mult pentru răspunsul dvs.
- Îmi place citatul dvs. despre " puterea împrumutului. " Aș dori să se încadreze mai multe statistici în ceea ce privește schimbul selectiv de informații.
Răspuns
Răspunsul lui Ben este cel mai general rezultat. Dar răspunsul intuitiv la PO este motivat de cazul predictorilor categorici, care sunt de obicei codați ca variabile fictive multiple: una pentru fiecare categorie. În multe analize este logic să luați în considerare aceste variabile fictive (reprezentând un predictor categoric), mai degrabă decât separat.
Dacă aveți o variabilă categorică cu, să zicem, cinci niveluri, un lazo drept ar putea lăsa două în și trei afară. Cum faceți acest lucru într-un mod principial? Decizi să votezi? Folosiți literalmente variabilele fictive în loc de cele mai semnificative categorice? Cum vă afectează codarea înșelătoare alegerile dvs.?
După cum se spune în introducerea Lasso de grup pentru regresie logistică , acesta menționează:
Deja pentru cazul special în regresie liniară când sunt prezenți nu numai predictori (factori) continui, ci și categorici, soluția lazo nu este satisfăcătoare, deoarece selectează doar variabile fictive individuale în loc de factori întregi. Mai mult, soluția lazo depinde de modul în care sunt codificate variabilele fictive. Alegerea diferitelor contraste pentru un predictor categoric va produce soluții diferite în general.
După cum subliniază Ben, există și legături mai subtile între predictori care ar putea indica faptul că ar trebui să fie fie în interior, fie în afara acestora. Dar variabilele categorice sunt elementele poster ale grupului lasso.
Comentarii
- @Ben: Hmmm … Pot ' nu înțeleg cu adevărat primul comentariu al OP ', se pare că este ' un răspuns la un comentariu șters acum ? Întrebarea în sine și titlul ei – care vor citi majoritatea spectatorilor – pare a fi o întrebare generală. ' îmi voi șterge cu siguranță răspunsul dacă întrebarea și titlul sunt schimbate în ceva despre " Ce aplicații non-evidente există pentru lasso grupat dincolo de variabilele categorice? "
- Bine. Îmi place ideea dvs. despre modul în care utilizarea lazoului (simplu) pe factori face ca estimările să depindă de codificarea factorilor! Anterior tocmai m-am gândit la lasso de grup ca ne oferă un fel de " raritate de măsurare " în loc de un " parametru rar " (adică ar trebui să măsurăm factorul sau nu – toate nivelurile ar trebui selectate sau niciunul.)