He leído que el lazo de grupo se usa para la selección de variables y la dispersión en un grupo de variables. Quiero conocer la intuición detrás de esta afirmación.
- ¿Por qué se prefiere el lazo de grupo al lazo?
- ¿Por qué la ruta de solución de lazo de grupo no es lineal por partes?
Comentarios
- Lo que entiendo por Yuan y Lin (2006) es que el lazo está diseñado para seleccionar variables individuales, no para seleccionar factores. De modo que Lasso aborda el problema de ANOVA en el que el objetivo es seleccionar efectos e interacciones principales importantes para una predicción precisa que equivale a la selección de grupos de variables. El otro ejemplo es un modelo aditivo con polinomio donde cada componente se expresa como una combinación lineal de funciones básicas de las variables medidas originales
Respuesta
Intuitivamente hablando, el lazo de grupo puede ser preferido al lazo ya que nos proporciona un medio para incorporar (cierto tipo de) información adicional en nuestra estimación del coeficiente real $ \ beta ^ * $. Como escenario extremo, considerando lo siguiente:
Con $ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $, ponga $ S = \ {j: \ beta ^ * _ j \ neq 0 \} $ como soporte de $ \ beta ^ * $. Considere el estimador de «oráculo» $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y – X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ que es el lazo de grupo con dos grupos – uno el verdadero soporte y uno el complemento. Sea $ \ lambda_ {max} $ el valor más pequeño de $ \ lambda $ que hace que $ \ hat {\ beta} = 0 $. Debido a la naturaleza de la penalización del lazo de grupo, sabemos que en $ \ lambda $ se mueve de $ \ lambda_ {max} $ a $ \ lambda_ {max} – \ epsilon $ (para algunos $ \ epsilon > 0 $), exactamente un grupo entrará en soporte de $ \ hat {\ beta} $, que se considera popularmente como una estimación de $ S $. Debido a nuestra agrupación, con alta probabilidad, el grupo seleccionado será $ S $, y habremos hecho un trabajo perfecto.
En la práctica, no seleccionamos los grupos tan bien. Sin embargo, los grupos, a pesar de ser más finos que el escenario extremo anterior, aún nos ayudarán: la elección aún se haría entre un grupo de covariables verdaderas y un grupo de covariables falsas. Todavía estamos tomando prestada la fuerza.
Esto se formaliza aquí . Muestran, bajo algunas condiciones, que el límite superior de la predicción El error del lazo de grupo es más bajo que un límite inferior en el error de predicción del lazo simple. Es decir, demostraron que la agrupación hace que nuestra estimación funcione mejor.
Para su segunda pregunta: El (simple) La penalización de lazo es lineal por partes, y esto da lugar a la ruta de solución lineal por partes. Intuitivamente, en el caso del lazo de grupo, la penalización ya no es lineal por partes, por lo que ya no tenemos esta propiedad. Una gran referencia sobre la linealidad por partes de las rutas de solución está aquí . Vea su propuesta 1. Sea $ L (\ beta) = \ | y – X \ beta \ | _2 ^ 2 $ y $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. Muestran que la ruta de solución del lazo de grupo es lineal si y solo si $$ \ left ( \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {- 1} \ nabla J (\ hat {\ beta}) $$ es piec ewise constante. Por supuesto, no lo es ya que nuestra penalización $ J $ tiene una curvatura global.
Comentarios
- Tiene mucho sentido ahora. Muchas gracias para su respuesta.
- Me gusta su cita sobre " fuerza de préstamo. " Desearía que se enmarcaran más estadísticas en términos de compartir información de forma selectiva.
Respuesta
La respuesta de Ben es el resultado más general. Pero la respuesta intuitiva al OP está motivada por el caso de los predictores categóricos, que generalmente se codifican como múltiples variables ficticias: una para cada categoría. Tiene sentido en muchos análisis considerar estas variables ficticias (que representan un predictor categórico) juntas en lugar de por separado.
Si tiene una variable categórica con, digamos, cinco niveles, un lazo recto podría dejar dos en y tres fuera. ¿Cómo maneja esto de una manera basada en principios? ¿Decides votar? ¿Utilizar literalmente las variables ficticias en lugar de las categóricas más significativas? ¿Cómo afecta su codificación ficticia a sus elecciones?
Como dicen en la introducción de El lazo de grupo para regresión logística , menciona:
Ya para el caso especial en regresión lineal cuando no solo están presentes predictores (factores) continuos sino también categóricos, la solución de lazo no es satisfactoria ya que solo selecciona variables ficticias individuales en lugar de factores completos. Además, la solución de lazo depende de cómo se codifiquen las variables ficticias. La elección de diferentes contrastes para un predictor categórico producirá diferentes soluciones en general.
Como señala Ben, también hay vínculos más sutiles entre predictores que podrían indicar que deberían estar dentro o fuera juntos. Pero las variables categóricas son el elemento secundario del lazo de grupo.
Comentarios
- @Ben: Hmmm … Puedo ' Realmente no entiendo el primer comentario del OP ', parece que ' es una respuesta a un comentario ahora eliminado ? La pregunta en sí y su título, que es lo que leerán la mayoría de los espectadores, parece ser una pregunta general. ' ciertamente eliminaré mi respuesta si la pregunta y el título se cambian a algo sobre " ¿Qué aplicaciones no obvias existen para el lazo agrupado? más allá del caso de variables categóricas? "
- Bien. Me gusta su punto sobre cómo el uso de lazo (simple) en factores hace que las estimaciones dependan de la codificación de los factores. Anteriormente, pensaba que el lazo de grupo nos daba una especie de " escasez de medición " en lugar de " parámetro sparsity " (es decir, deberíamos tener que medir el factor o no; se deberían seleccionar todos los niveles o ninguno).