그룹 올가미가 변수 그룹에서 변수 선택 및 희소성에 사용된다는 것을 읽었습니다. 이 주장의 직관을 알고 싶습니다.
- 그룹 올가미가 올가미보다 선호되는 이유
- 그룹 올가미 솔루션 경로가 부분적으로 선형이 아닌 이유는 무엇인가요?
댓글
- Yuan and Lin (2006)에서 올가미가 요인 선택이 아닌 개별 변수를 선택하도록 설계되었다는 사실을 알고 있습니다. 따라서 올가미는 변수 그룹 선택에 해당하는 정확한 예측을 위해 중요한 주 효과와 상호 작용을 선택하는 것이 목표 인 ANOVA 문제를 해결합니다. 다른 예는 다항식 가산 모델로, 각 구성 요소는 원래 측정 된 변수의 기본 함수의 선형 조합으로 표현됩니다.
Answer
직관적으로 말하면 그룹 올가미는 실제 계수 $ \ beta ^ * $에 대한 추정치에 (특정 유형의) 추가 정보를 통합 할 수있는 수단을 제공하기 때문에 올가미보다 선호 될 수 있습니다. 극단적 인 시나리오로 다음을 고려하십시오.
$ y \ sim \ mathcal {N} (X \ beta ^ *, \ sigma ^ 2 I) $를 사용하면 $ S = \ {j : \ $ \ beta ^ * $의 지원으로 beta ^ * _ j \ neq 0 \} $. “oracle”추정기 $$ \ hat {\ beta} = \ arg \ min _ {\ beta} \ | y-X \ beta \ | _2 ^ 2 + \ lambda \ left (| S | ^ {1/2} \ | \ beta_S \ | _2 + (p- | S |) ^ {1/2} \ | \ beta_ {S ^ C} \ | _2 \ right), $$ : 두 그룹이있는 그룹 올가미 (하나) 진정한 지원과 보완입니다. $ \ lambda_ {max} $를 $ \ hat {\ beta} = 0 $로 만드는 $ \ lambda $의 가장 작은 값이되도록합니다. 그룹 올가미 패널티의 특성으로 인해 $ \ lambda $에서 $ \ lambda_ {max} $에서 $ \ lambda_ {max}-\ epsilon $ (일부 작은 $ \ epsilon > 0 $), 정확히 한 그룹이 $ S $의 추정치로 간주되는 $ \ hat {\ beta} $의 지원을 받게됩니다. 그룹화를해야 할 확률이 높고, 선택된 그룹은 $ S $가 될 것이며 우리는 “완벽한 작업을 수행 할 것입니다.
실제로 우리는 그룹을 이렇게 잘 선택하지 않습니다. 그러나 위의 극단적 인 시나리오보다 더 세밀하더라도 그룹은 여전히 우리에게 도움이 될 것입니다. 진정한 공변량 그룹과 참이 아닌 공변량 그룹 사이에서 선택이 이루어집니다. 우리는 여전히 힘을 빌리고 있습니다.
이것은 여기 에서 공식화되었습니다. 일부 조건에서는 예측의 상한선이 그룹 올가미의 오차는 일반 올가미의 예측 오차의 하한보다 낮습니다. 즉, 그룹화가 우리의 추정을 더 잘 수행한다는 것을 증명했습니다.
두 번째 질문 : The (plain) 올가미 패널티는 부분 선형이며 이는 부분 선형 솔루션 경로를 발생시킵니다. 직관적으로 그룹 올가미의 경우 패널티는 더 이상 부분 선형이 아니므로 더 이상이 속성이 없습니다. 솔루션 경로의 부분 선형성에 대한 훌륭한 참조 은 여기 입니다. 제안 1을 참조하십시오. $ L (\ beta) = \ | y-X \ beta \ | _2 ^ 2 $ 및 $ J (\ beta) = \ sum_ {g \ in G} | g | ^ {1/2} \ | \ beta_g \ | _2 $. $$ \ left (인 경우에만 그룹 올가미의 솔루션 경로가 선형임을 보여줍니다. \ nabla ^ 2L (\ hat {\ beta}) + \ lambda \ nabla ^ 2 J (\ hat {\ beta}) \ right) ^ {-1} \ nabla J (\ hat {\ beta}) $$는 조각 ewise 상수. 물론 “$ J $의 벌금이 글로벌 곡률을 가지고 있기 때문이 아닙니다.
댓글
- 이제 의미가 있습니다. 감사합니다. 귀하의 답변입니다.
- " 차용 강도에 대한 귀하의 인용문이 마음에 듭니다. " 더 많은 통계가 틀 렸으면 좋겠습니다. 선택적으로 정보를 공유하는 측면에서.
답변
Ben의 답변이 가장 일반적인 결과입니다. 그러나 OP에 대한 직관적 인 대답은 일반적으로 각 범주에 대해 하나씩 여러 더미 변수로 인코딩되는 범주 형 예측 변수의 경우에 동기가 부여됩니다. 여러 분석에서 이러한 더미 변수 (하나의 범주 형 예측 변수를 나타냄)를 개별적으로 고려하는 것이 아니라 함께 고려하는 것이 합리적입니다.
예를 들어 수준이 5 개인 범주 형 변수가있는 경우 직선 올가미는 두 개를 및 3 개. 이것을 원칙적으로 어떻게 처리합니까? 투표하기로 결정 하시겠습니까? 말 그대로 더 의미있는 범주 대신 더미 변수를 사용합니까? 더미 인코딩이 선택에 어떤 영향을 미칩니 까?
로지스틱 회귀를위한 그룹 올가미 소개에서 말했듯이 다음과 같이 언급됩니다.
이미 연속 형뿐 아니라 범주 형 예측 변수 (요인)도 존재하는 선형 회귀의 특별한 경우에 대해 올가미 솔루션은 선택 만하기 때문에 만족스럽지 않습니다. 전체 요인 대신 개별 더미 변수. 또한 올가미 솔루션은 더미 변수가 인코딩되는 방식에 따라 다릅니다. 범주 형 예측 변수에 대해 다른 대비를 선택하면 일반적으로 다른 솔루션이 생성됩니다.
Ben이 지적했듯이 예측 변수 간에는 함께 있어야한다는 것을 나타낼 수있는 미묘한 링크도 있습니다. 하지만 범주 형 변수는 그룹 올가미의 포스터 자식입니다.
댓글
- @Ben : 음 … 할 수 있습니다. ' OP '의 첫 번째 댓글을 이해하지 못합니다. ' 지금 삭제 된 댓글에 대한 응답 인 것 같습니다. ? 질문 자체와 제목 (대부분의 시청자가 읽을 것임)은 일반적인 질문 인 것 같습니다. ' 질문과 제목이 " 그룹화 된 올가미에 어떤 명확하지 않은 응용 프로그램이 있는지에 대한 내용으로 변경되면 내 답변을 확실히 삭제합니다. 범주 형 변수의 경우를 넘어서? "
- 좋습니다. 요인에 (일반) 올가미를 사용하면 요인의 코딩에 따라 추정이 결정되는 방식에 대한 귀하의 요점이 마음에 듭니다! 이전에는 그룹 올가미가 iv id = “4f16eac70d”대신에 일종의 " 측정 희소성 "을 제공한다고 생각했습니다. >
매개 변수 희소성 " (즉, 요인을 측정해야하거나 측정하지 않아야합니다. 모든 수준을 선택하거나 선택하지 않아야합니다.)