Czytałem, że lasso grupowe służy do selekcji zmiennych i rzadkości w grupie zmiennych. Chcę poznać intuicję stojącą za tym twierdzeniem.

  • Dlaczego lasso grupowe jest preferowane od lasso?
  • Dlaczego ścieżka rozwiązania lasso grupowego nie jest fragmentarycznie liniowa?

Komentarze

  • Co rozumiem z Yuan i Lin (2006), że lasso jest przeznaczone do wybierania pojedynczych zmiennych, a nie doboru czynników. Zatem lasso rozwiązuje problem ANOVA, gdzie celem jest wybranie ważnych efektów głównych i interakcji w celu dokładnego przewidywania, co sprowadza się do wyboru grup zmiennych. Innym przykładem jest model addytywny z wielomianem, w którym każdy składnik jest wyrażony jako liniowa kombinacja funkcji bazowych oryginalnych mierzonych zmiennych

Odpowiedź

Intuicyjnie rzecz biorąc, lasso grupowe można preferować nad lasso, ponieważ zapewnia nam środki do włączenia (pewnego rodzaju) dodatkowych informacji do naszego oszacowania prawdziwego współczynnika $ \ beta ^ * $. W skrajnym scenariuszu, biorąc pod uwagę następujące kwestie:

Przy $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $ wstaw $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ jako wsparcie dla $ \ beta ^ * $. Rozważmy estymator „wyrocznia” $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ czyli grupowe lasso z dwiema grupami – jedną prawdziwe wsparcie i jedno uzupełnienie. Niech $ \ lambda_ {max} $ będzie najmniejszą wartością $ \ lambda $, która daje $ \ hat {\ beta} = 0 $. Ze względu na charakter kary grupowej za lasso wiemy, że przy $ \ lambda $ przesuwa się z $ \ lambda_ {max} $ do $ \ lambda_ {max} – \ epsilon $ (dla niektórych małych $ \ epsilon > 0 $), dokładnie jedna grupa wejdzie w obsługę $ \ hat {\ beta} $, co jest powszechnie uważane za oszacowanie $ S $. Ze względu na nasze grupowanie, z dużym prawdopodobieństwem wybrana grupa będzie $ S $ i wykonamy doskonałą robotę.

W praktyce nie wybieramy grup tak dobrze. Jednak grupy, mimo że są subtelniejsze niż powyższy skrajny scenariusz, nadal będą nam pomagać: nadal będzie dokonywany wybór między grupą rzeczywistych zmiennych towarzyszących a grupą nieprawdziwych zmiennych towarzyszących. Wciąż pożyczamy siłę.

Jest to sformalizowane tutaj . Pokazują one, w pewnych warunkach, że górna granica prognozy błąd grupy lasso jest mniejszy niż dolna granica błędu przewidywania zwykłego lassa. Oznacza to, że udowodnili, że grupowanie sprawia, że nasze oszacowanie jest lepsze.

Drugie pytanie: (proste) Kara za lasso jest odcinkowo liniowa, co daje początek odcinkowej liniowej ścieżce rozwiązania. Intuicyjnie, w przypadku grupowego lassa, kara nie jest już odcinkowo liniowa, więc nie mamy już tej właściwości. Świetne odniesienie do odcinkowej liniowości ścieżek rozwiązania jest tutaj . Zobacz ich propozycję 1. Niech $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ i $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Pokazują, że ścieżka rozwiązania grupy lasso jest liniowa wtedy i tylko wtedy, gdy $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ to piec ewise stała. Oczywiście tak nie jest, ponieważ nasza kara $ J $ ma globalną krzywiznę.

Komentarze

  • To ma teraz duży sens. Wielkie dzięki za twoją odpowiedź.
  • Podoba mi się twój cytat o " sile pożyczania. " Chciałbym, żeby więcej statystyk zostało sformułowanych pod względem selektywnego udostępniania informacji.

Odpowiedź

Odpowiedź Bena jest najbardziej ogólnym wynikiem. Ale intuicyjna odpowiedź na PO jest motywowana przypadkiem predyktorów jakościowych, które są zwykle kodowane jako wiele zmiennych fikcyjnych: po jednej dla każdej kategorii. W wielu analizach sensowne jest rozważenie tych zmiennych fikcyjnych (reprezentujących jeden predyktor jakościowy) razem, a nie osobno.

Jeśli masz zmienną kategorialną z, powiedzmy, pięcioma poziomami, proste lasso może pozostawić dwie w i trzy z nich. Jak sobie z tym radzisz w pryncypialny sposób? Zdecydujesz się zagłosować? Dosłownie używać fikcyjnych zmiennych zamiast bardziej znaczących kategorii? Jak twoje pozorowane kodowanie wpływa na twoje wybory?

Jak mówią we wstępie Grupa lasso dla regresji logistycznej , wspomina:

Już w przypadku szczególnego przypadku regresji liniowej, gdy obecne są nie tylko predyktory (czynniki) ciągłe, ale także jakościowe, rozwiązanie lasso nie jest zadowalające, ponieważ wybiera tylko poszczególne zmienne fikcyjne zamiast całych czynników. Co więcej, rozwiązanie lasso zależy od sposobu kodowania zmiennych fikcyjnych. Wybór różnych kontrastów dla predyktora kategorialnego da ogólnie różne rozwiązania.

Jak zauważa Ben, istnieją również bardziej subtelne powiązania między predyktorami, które mogą wskazywać, że powinny one być razem lub nie. Ale zmienne kategorialne są elementem potomnym plakatu dla grupy lasso.

Komentarze

  • @Ben: Hmmm … Mogę ' naprawdę rozumiem pierwszy komentarz OP '. Wygląda na to, że ' jest odpowiedzią na usunięty komentarz ? Samo pytanie i jego tytuł – który przeczyta większość widzów – wydają się być pytaniem ogólnym. ' z pewnością skasuję swoją odpowiedź, jeśli pytanie i tytuł zostaną zmienione na mniej więcej " Jakie nieoczywiste aplikacje są dostępne dla zgrupowanego lassa poza przypadkiem zmiennych kategorialnych? "
  • OK. Podoba mi się twój punkt widzenia na temat tego, jak użycie (zwykłego) lassa do czynników sprawia, że szacunki zależą od kodowania czynników! Wcześniej myślałem, że grupa lasso daje nam coś w rodzaju " pomiaru rzadkości " zamiast " parametr rzadkość " (tj. powinniśmy mierzyć współczynnik lub nie – należy wybrać wszystkie poziomy lub żaden).

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *