Ich habe gelesen, dass das Gruppen-Lasso für die Variablenauswahl und die Sparsity in einer Gruppe von Variablen verwendet wird. Ich möchte die Intuition hinter dieser Behauptung kennen.

  • Warum wird Gruppen-Lasso gegenüber Lasso bevorzugt?
  • Warum ist der Gruppen-Lasso-Lösungspfad nicht stückweise linear?

Kommentare

  • Was ich aus Yuan und Lin (2006) verstehe, ist, dass Lasso für die Auswahl einzelner Variablen und nicht für die Faktorauswahl ausgelegt ist. Lasso befasst sich also mit dem ANOVA-Problem, bei dem es darum geht, wichtige Haupteffekte und Wechselwirkungen für eine genaue Vorhersage auszuwählen, die einer Auswahl von Gruppen von Variablen gleichkommt. Das andere Beispiel ist ein additives Modell mit Polynom, bei dem jede Komponente als lineare Kombination von Basisfunktionen der ursprünglichen Messvariablen ausgedrückt wird.

Antwort

Intuitiv gesehen kann das Gruppen-Lasso dem Lasso vorgezogen werden, da es uns die Möglichkeit bietet, (eine bestimmte Art von) zusätzliche Informationen in unsere Schätzung für den wahren Koeffizienten $ \ beta ^ * $ einzubeziehen. Betrachten Sie als extremes Szenario Folgendes:

Setzen Sie mit $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $ $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ als Unterstützung von $ \ beta ^ * $. Betrachten Sie den „Orakel“ -Schätzer $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2}) \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ ist das Gruppen-Lasso mit zwei Gruppen – eine die wahre Unterstützung und eine die Ergänzung. Sei $ \ lambda_ {max} $ der kleinste Wert von $ \ lambda $, der $ \ hat {\ beta} = 0 $ macht. Aufgrund der Art der Gruppen-Lasso-Strafe wissen wir, dass sich $ \ lambda $ von $ \ lambda_ {max} $ nach $ \ lambda_ {max} – \ epsilon $ bewegt (für einige kleine $ \ epsilon > 0 $) wird genau eine Gruppe $ \ hat {\ beta} $ unterstützen, was im Volksmund als Schätzung für $ S $ angesehen wird. Aufgrund unserer Gruppierung wird die ausgewählte Gruppe mit hoher Wahrscheinlichkeit $ S $ sein, und wir haben einen perfekten Job gemacht.

In der Praxis wählen wir die Gruppen nicht so gut aus. Die Gruppen werden uns dennoch helfen, obwohl sie feiner als das obige extreme Szenario sind: Die Wahl würde immer noch zwischen einer Gruppe echter Kovariaten und einer Gruppe unwahrer Kovariaten getroffen werden. Wir leihen uns immer noch Stärke aus.

Dies ist hier formalisiert . Sie zeigen unter bestimmten Bedingungen, dass die Obergrenze der Vorhersage liegt Der Fehler des Gruppen-Lassos ist niedriger als eine Untergrenze des Vorhersagefehlers des einfachen Lassos. Das heißt, sie haben bewiesen, dass die Gruppierung unsere Schätzung verbessert.

Für Ihre zweite Frage: Die (einfache) Die Lasso-Strafe ist stückweise linear, und dies führt zu dem stückweise linearen Lösungspfad. Intuitiv ist die Strafe im Fall des Gruppen-Lassos nicht mehr stückweise linear, sodass wir diese Eigenschaft nicht mehr haben. Eine gute Referenz zur stückweisen Linearität von Lösungspfaden ist hier . Siehe ihren Satz 1. Sei $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ und $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Sie zeigen, dass der Lösungspfad des Gruppen-Lassos genau dann linear ist, wenn $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ ist Stück ewise konstant. Natürlich ist es nicht so, dass unsere Strafe $ J $ eine globale Krümmung hat.

Kommentare

  • Es macht jetzt viel Sinn. Vielen Dank für Ihre Antwort.
  • Ich mag Ihr Zitat über " Kreditstärke. " Ich wünschte, mehr Statistik wäre gerahmt in Bezug auf den selektiven Austausch von Informationen.

Antwort

Bens Antwort ist das allgemeinste Ergebnis. Die intuitive Antwort auf das OP wird jedoch durch den Fall kategorialer Prädiktoren motiviert, die normalerweise als mehrere Dummy-Variablen codiert werden: eine für jede Kategorie. In vielen Analysen ist es sinnvoll, diese Dummy-Variablen (die einen kategorialen Prädiktor darstellen) zusammen und nicht getrennt zu betrachten.

Wenn Sie eine kategoriale Variable mit beispielsweise fünf Ebenen haben, kann ein gerades Lasso zwei in und lassen drei raus. Wie gehen Sie prinzipiell damit um? Entscheiden Sie sich für eine Abstimmung? Verwenden Sie buchstäblich die Dummy-Variablen anstelle der aussagekräftigeren kategorialen? Wie wirkt sich Ihre Dummy-Codierung auf Ihre Auswahl aus?

Wie in der Einführung von Das Gruppen-Lasso für logistische Regression heißt es:

Bereits für den Sonderfall der linearen Regression, wenn nicht nur kontinuierliche, sondern auch kategoriale Prädiktoren (Faktoren) vorhanden sind, ist die Lasso-Lösung nicht zufriedenstellend, da sie nur auswählt einzelne Dummy-Variablen statt ganzer Faktoren. Darüber hinaus hängt die Lasso-Lösung davon ab, wie die Dummy-Variablen codiert werden. Die Auswahl unterschiedlicher Kontraste für einen kategorialen Prädiktor führt im Allgemeinen zu unterschiedlichen Lösungen.

Wie Ben betont, gibt es auch subtilere Verknüpfungen zwischen Prädiktoren, die darauf hinweisen könnten, dass sie entweder zusammen ein- oder ausgehen sollten. Aber kategoriale Variablen sind das Aushängeschild für Gruppen-Lasso.

Kommentare

  • @Ben: Hmmm … Ich kann ' verstehe den ersten Kommentar des OP ' nicht wirklich. Es sieht so aus, als wäre ' eine Antwort auf einen jetzt gelöschten Kommentar ? Die Frage selbst und ihr Titel – was die meisten Zuschauer lesen werden – scheinen eine allgemeine Frage zu sein. Ich ' werde meine Antwort auf jeden Fall löschen, wenn die Frage und der Titel in etwas über " geändert werden. Welche nicht offensichtlichen Anwendungen gibt es für gruppiertes Lasso? über den Fall von kategorialen Variablen hinaus? "
  • Okay. Ich mag Ihren Punkt darüber, wie die Verwendung von (einfachem) Lasso auf Faktoren die Schätzungen von der Kodierung der Faktoren abhängt! Ich habe mir das Gruppen-Lasso bisher nur als eine Art " Messsparsity " anstelle einer Parameter-Sparsity " (dh wir sollten den Faktor messen müssen oder nicht – alle Ebenen sollten ausgewählt sein oder keine.)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.