저는 여전히 “링크 함수”가 무엇을 의미하는지 배우려고 노력하고 있습니다 (용어 문제 일 수 있음). 예를 들어, 로지스틱 회귀 분석에서는 반응 변수가 이항 분포를 형성한다고 가정합니다.
$ \ text {logit} ^ {-1} $ 링크 함수는 $ (-\ infty,-\ infty) $ ( $ \ beta ^ {\ top} x $ 의 출력)에서 확률 수 $ [0,1] $ . 그러나 인 이항 분포 에 어떻게 “연결”됩니까? 불연속 분포?
“링크”가 실수와 확률 사이에 있다는 것을 알고 있지만 확률 숫자에서 이항 분포까지 일부 누락 된 부분이 있습니다. .
내가 맞습니까?
댓글
- 내 답변에서 비정상적인 링크 기능에 대한 자세한 설명을 찾을 수 있습니다. stats.stackexchange.com/a/64039/919 에 관심이 있습니다. (이 질문은 귀하의 것과 중복 될 수 있습니다.) 누락 된 것이 없습니다. 로지스틱 회귀 분석의 응답은 Bernoulli 이며 매개 변수에 의해 완전히 결정됩니다 (" 확률 번호 ").
- 항상 도와 주신 @whuber에게 감사드립니다. 제공하신 링크는 가치가 있지만 이상한 질문 제목 때문에 찾을 수 없습니다 …
- 좋은 검색어를 찾는 것은 항상 문제입니다. I ' 당신이나 다른 사람이 그것을 찾지 못했다고 탓하지 않습니다. (그 게시물을 다시 찾아야 할 때마다 " 해바라기, " 모든 것을 검색합니다!)
- 일반화 된 선형 모델에서 링크 함수의 목적 도 참조하세요.
답변
따라서 이진 반응 데이터가있는 경우 각 관측치에 대해 “예 / 아니오”또는 “1/0″결과가 있습니다. 그러나 이항 반응 회귀를 수행 할 때 추정하려는 것은 부과하는 독립 변수의 각 값 세트에 대한 1/0 결과가 아니라 이러한 특성을 가진 개인이 “예”결과를 초래할 확률입니다. . 그러면 응답은 더 이상 불 연속적이지 않고 연속적입니다 ((0,1) 간격에서). 데이터의 응답 ( true $ y_i $)은 실제로 이진이지만 예상 응답 ($ \ Lambda (x_i “b) $ 또는 $ \ Phi (x_i”b) $)은 확률입니다.
이러한 링크 함수의 기본 의미는 다음과 같습니다. 그것들은 우리가 잠재 변수 모델의 오류 항에 부과하는 분포입니다. 각 개인이 결과에서 “예”(또는 1)라고 말하는 기본 (관찰 할 수없는) 의지 를 가지고 있다고 가정 해보십시오. 그런 다음 개인의 특성 $ x_i $ (다중 회귀의 벡터)에 대한 선형 회귀를 사용하여 이러한 의지를 $ y_i ^ * $로 모델링합니다.
$$ y_i ^ * = x_i “\ beta + \ epsilon_i. $$
이를 잠재 변수 회귀라고합니다.이 개인의 의지가 긍정적 인 경우 ($ y_i ^ * > 0 $) , 개인의 관찰 된 결과는 “예”($ y_i = 1 $), 그렇지 않으면 “아니오”입니다. 임계 값 선택은 잠복 v로 중요하지 않습니다. 계산 가능한 모델에는 절편이 있습니다.
선형 회귀에서는 오류 항이 정규 분포를 따른다고 가정합니다. 이진 반응 및 기타 모델에서는 오류 항에 대한 분포를 부과 / 가정해야합니다. 연결 함수는 오류 항이 따르는 누적 확률 함수입니다. 예를 들어, 그것이 물류라면 (그리고 우리는 물류 분포가 네 번째 평등에서 대칭임을 사용할 것입니다),
$$ P (y_i = 1) = P (y_i ^ * > 0) = P (x_i”\ beta + \ epsilon_i > 0) = P (\ epsilon_i > -x_i “\ beta) = P (\ epsilon_i < x_i”\ beta) = \ Lambda (x_i “\ beta). $$
오류가 정상적으로 배포되면 $ \ Lambda (\ cdot) $ 대신 probit 링크 $ \ Phi (\ cdot) $가 생깁니다.
Comments
- +1 사이트에 오신 것을 환영합니다, Anna! 요청하신 질문과 함께 잘 구성된 답변을 제공 해주셔서 감사합니다.
- 감사합니다! 내가 새로 온 걸 어떻게 알았어? 새로운 사람들을 추적 할 무언가가 있습니까? 운영자입니까? 조금 놀랐습니다. 하지만 실제로 제 의도는 질문하는 것보다 훨씬 더 많은 답변을 제공하는 것이었지만, 우연히 질문이 생겼습니다.
- 이 사이트에는 많은 '가 있습니다. , 안나. 도움말 센터 를 검토하여 시작하세요. 더 많은 정보를 위해 보이는 거의 모든 것을 클릭 할 수 있습니다. 이름 뒤에 다이아몬드 아이콘이있는 사용자는 중재자이지만 평판이 충분히 높은 사용자도 중재자입니다.이 사이트의 작동 방식에 대한 추가 질문은 메타 페이지 로 이동하세요. (idiosyncratic) 사이트 검색은 유용하지만 타겟팅 된 Google 검색 (" site : stats.stackexchange.com " 포함)은 균일 할 수 있습니다. 더 효과적인. 그리고 채팅룸 을 확인하세요.
- @AnnaSdTC no 추적 메커니즘이 없습니다. 새로운 사용자의 게시물을 강조하는 검토 대기열이 있지만 대부분의 경우 새 닉네임 + 아바타를 알 수 있습니다. 또한 프로필 정보에는 계정이 생성 된시기에 대한 정보가 있습니다 (yourelf stats.stackexchange.com/users/146969/anna-sdtc 참조). " " 섹션의 회원).
- ' 한동안 로지스틱 회귀를 위해 " 왜 sigmoid "에 대한 답을 찾고 있었으며 이것이 가장 좋은 답입니다. 저는 ' 많은 ML 책에서 이것을 언급하고 갑자기 물류 기능을 부과하지 않는다는 사실에 놀랐습니다. 내가 본 최고의 ' GLM에 대해 이야기했지만 " GLM 양식 "을 부과합니다. 파란색에서 벗어나 " 정리 "로 사용합니다. ' 무엇이든 설명하십시오. 내가 이해할 수있는 유일한 방법은이 사고를 통한 것입니다. 오류 용어의 분포에 대한 가정이며, 이것이 아무것도 부과하지 않는 유일한 실제 설명이라고 생각합니다
답변
일반화 된 선형 모델은 선형 예측 변수
로 정의됩니다.
$$ \ eta = X \ beta $$
다음은 $ Y $의 조건부 분포와 링크 함수 a를 설명하는 확률 분포 입니다. > $ g $는 “선형 예측 자와 분포 함수의 평균 사이의 관계를 제공합니다”. $ Y $의 값이 아니라 조건부 평균 <예측 변수 $ X $에 따라 $ Y $ 중 / a>, 즉
$$ E (Y | X) = g ^ {-1} (\ eta) $$
In 가우시안 패밀리의 경우 GLM (선형 회귀) 항등 함수가 링크 함수로 사용되므로 $ E (Y | X) = \ eta $, 반면 로지스틱 회귀 경우 로짓 기능이 사용됩니다. (역의) 로짓 함수는 $ (-\ infty, \ infty) $의 $ \ eta $ 값을 $ (0, 1) $로 변환합니다. 로지스틱 회귀 는 확률을 예측하기 때문입니다. 성공의 , 즉 베르누이 분포의 평균. 다른 함수는 선형 예측자를 다른 분포의 수단으로 변환하는 데 사용됩니다 (예 : 포아송 회귀 의 경우 로그 함수, 감마 회귀의 경우 역 링크). 따라서 연결 함수는 $ Y $ 값 (예 : 로지스틱 회귀의 경우 이진)과 선형 예측 변수를 연결하지 않지만 $ Y $ 분포의 평균을 $ \ eta $와 연결합니다 (실제로 확률을 $ 0 $로 변환). s 및 $ 1 $ “는 결정 규칙 이 추가로 필요합니다. 따라서 요약 메시지는 우리가 $ Y $의 값을 예측하는 것이 아니라 대신 확률 적 모델과 $ Y의 조건부 분포의 추정 매개 변수 측면에서 설명한다는 것입니다. $는 $ X $에 주어집니다.
링크 기능과 GLM에 대해 자세히 알아 보려면 ' 링크 함수 ' 및 ' 표준 링크 함수 ' , 일반화 된 선형 모델에서 링크 함수의 목적 및 로짓 모델과 프로 비트 모델의 차이점 스레드 , GLM에 대한 Wikipedia 기사 및 일반화 된 선형 모델 책 은 McCullagh와 Nelder가 작성했습니다.