감마 분포는 매우 넓은 범위의 모양을 취할 수 있으며 두 매개 변수를 통한 평균과 분산 간의 연결을 고려할 때 다음과 같은 경우에 적합합니다. 로그 변환 OLS가 WLS 또는 일종의 이분산성 일치 VCV 추정기 없이는 할 수없는 방식으로 음이 아닌 데이터에서 이분산성을 처리합니다.

나는 일상적인 비-분산성에 더 많이 사용합니다. 부정적인 데이터 모델링을 사용하지만 다른 사람을 알지 못합니다. 공식적인 강의실 환경에서 배운 적도없고 읽은 문헌에서도 사용하지 않습니다. “감마 GLM의 실제 사용”과 같은 Google 검색을 할 때마다 , 저는 푸 아송 이벤트 사이의 대기 시간에 사용하라는 조언을 얻었습니다. 좋습니다.하지만 제한적인 것처럼 보이며 유일한 사용이 될 수는 없습니다.

순진하게 감마 GLM이 상대적으로 가정 인 것 같습니다. -감마의 유연성을 고려하여 음이 아닌 데이터를 모델링하는 가벼운 수단입니다. 물론 QQ 플롯과 다른 모델과 마찬가지로 잔차 플롯을 확인해야합니다. 내가 놓친 심각한 단점이 있습니까? “OLS를 실행하는”사람들과의 의사 소통을 넘어서?

댓글

  • 나는 ' 꽤 늦었습니다. 대화에 대해 설명했지만 ' 감마 회귀가 Poisson 회귀와 동일한 목적을 달성하기 때문에 (내 지식으로는) 감마 회귀에 관심이 있지만 지속적인 형태로 인해 '는 기울기 계산을 더 쉽게합니다. 잠재적으로 PyMC3, Stan 등과 같은 기울기 기반 샘플링 HMC / NUTS를 사용하는 베이지안 모델링 소프트웨어에 더 나은 선택이 될 수 있습니다. (다른 사람들이 어떻게 생각하는지 궁금합니다.)

Answer

감마에는 로그 노멀이 공유하는 속성이 있습니다. 즉, 스케일 매개 변수가 변경되는 동안 (일반적으로 모델에 대해 사용하는 것처럼) 형상 매개 변수가 일정하게 유지되면 분산은 평균 제곱 (상수 변동 계수)에 비례합니다.

뭔가 재무 데이터 또는 다른 많은 종류의 데이터에서 상당히 자주 발생합니다.

결과적으로 연속적이고 양수이며 오른쪽으로 치우쳐 있고 분산이있는 데이터에 종종 적합합니다. 로그 규모에서는 거의 일정하지만 이러한 속성에는 다른 잘 알려진 (그리고 종종 쉽게 사용할 수있는) 선택 항목이 많이 있습니다.

또한 로그 링크를 맞추는 것이 일반적입니다. 감마 GLM을 사용합니다 (자연 링크를 사용하는 것은 비교적 드뭅니다). 일반 선형 모델을 데이터 로그에 맞추는 것과 약간 다른 점은 감마가 다양한 각도로 기울어 진 로그 스케일 반면 노멀 (로그 노멀의 로그)은 대칭입니다. 따라서 감마 (감마)는 다양한 상황이 있습니다.

저는 (실제 데이터 예제와 함께) 감마 GLM의 실제 사용을 본 적이 있습니다. de Jong & Heller Frees 및 수많은 논문; 다른 분야에서도 응용 프로그램을 본 적이 있습니다. 아, 그리고 제 기억이 맞다면 Venables and Ripley s MASS 는 학교 결석 (퀸 데이터; 편집 : 실제로는 통계가 MASS에 대한 보완 에 있습니다. pdf의 14 번째 페이지 인 p11을 참조하십시오. 로그 링크이지만 DV의 작은 변화가 있습니다.) 어, 그리고 McCullagh와 Nelder는 혈액 응고의 예를 들어 보았습니다.

그런 다음 Faraway의 책 에서 자동차 보험 사례와 반도체 제조 데이터 사례를 작성했습니다.

두 옵션 중 하나를 선택하는 데는 몇 가지 장점과 단점이 있습니다. 요즘은 둘 다 쉽게 맞출 수 있습니다. 일반적으로 가장 적합한 것을 선택하는 문제입니다.

유일한 옵션과는 거리가 멀습니다. 예를 들어 더 비대칭 / 무거운 꼬리 (그리고 더 많은 꼬리가있는 역 가우시안 GLM)도 있습니다. 감마 또는 로그 정규보다 훨씬 더이 분산 적).

결점에 관해서는 예측 구간을 수행하는 것이 더 어렵습니다. 일부 진단 디스플레이는 해석하기 더 어렵습니다. 선형 예측기 (일반적으로 로그 척도)의 척도에 대한 기대치를 계산하는 것은 동등한 척도보다 더 어렵습니다. 로그 정규 모델입니다. 가설 테스트 및 간격은 일반적으로 점근 적입니다. 이는 종종 비교적 사소한 문제입니다.

로그 링크 로그 정규 회귀 (로그를 가져와 일반 선형 회귀 모델에 적합)보다 몇 가지 장점이 있습니다. 평균 예측은 쉽습니다.

댓글

  • " 감마 또는 " 감마 "? 우리는 ' ' " g " 훨씬 더 자주 소문자를 보았습니다. .분명히 분포의 이름은 18 세기로 거슬러 올라갑니다.
  • $ \ Gamma $ 표기법은 제가 '에 대해 본 유일한 이유입니다. 그 사용. 일반적으로 분포에서 대문자는 일반적으로 성을 반영합니다. 아시다시피 Poisson 또는 Gaussian입니다.
  • @NickCox 제안한대로 변경했으며 " Inverse Gaussian " 내가 그 자리에있는 동안.
  • @Gleb_b : 역 가우시안 패밀리에 여전히 로그 링크를 사용하십니까?
  • @ DimitriyV.Masterov It '는 덜 사용되므로 ' 일반화하기가 더 어렵습니다. 제가 ' 본 것에서 ' 역 가우스와 함께 로그 링크를 사용하는 것이 매우 일반적이지만 다른 링크가 적합 할 수 있습니다. 역 링크와 같은 일부 상황에서.

답변

좋은 질문입니다. 사실, 사람들이 일반화 된 선형 모델 (GLM)을 더 많이 사용하지 않는 이유도 좋은 질문입니다.

경고 참고 : 어떤 사람들은 여기서 염두에 두지 않고 일반 선형 모델에 GLM을 사용합니다.

  • 어디를 보는지에 따라 다릅니다. 예를 들어 감마 분포는 수십 년 동안 여러 환경 과학에서 널리 사용되어 왔으므로 예측 변수를 사용한 모델링도 자연스러운 확장입니다. 수 문학 및 지형학에는 내가 길을 잃은 일부 분야의 이름을 지정하는 많은 예가 있습니다.

  • 가장 잘 작동 할 때마다 공허한 대답을 넘어서 사용할 때를 정확히 파악하기는 어렵습니다. 편향된 양의 데이터가 주어지면 종종 감마 및 로그 정규 모델 (GLM 컨텍스트 로그 링크, 정규 또는 가우스 패밀리)을 시도하고 어느 것이 더 잘 작동하는지 선택합니다.

  • 감마 모델링은 직접 많은 코드를 작성하지 않고 로그를 취하고 선형 회귀를 적용하는 것과 비교할 때 상당히 최근까지 수행하기가 상당히 어려웠습니다. 지금도 모든 주요 통계 소프트웨어 환경에서 똑같이 쉬운 일은 아니라고 생각합니다.

  • 장점과 단점에도 불구하고 사용되는 것과 사용되지 않는 것을 설명 할 때, 나는 당신이 식별하는 요소의 종류, 즉 무엇을 가르치고, 무엇을 사람들이 읽은 문헌에, 사람들이들은 것은 직장과 회의에서 이야기 한 것입니다. 따라서 설명 할 일종의 아마추어 과학 사회학이 필요합니다. 대부분의 사람들은 자신의 분야에서 곧고 좁은 길을 따르는 것 같습니다. 느슨하게도 모델링 기술에 대한 모든 분야의 내부 문헌이 클수록 해당 분야의 사람들은 다른 것을 시도하는 경향이 적습니다.

댓글

  • 어떤 것이 더 나은지 어떻게 결정합니까?
  • 가능성을 확인합니다. , R- 제곱 (사람들의 말에도 불구하고), 매개 변수 추정에 대한 신뢰 구간, 관측 된 대 적합도, 잔차 대 적합의 플롯 등. 과학이 한 모델을 다른 모델보다 선호하는 경우에도 무게가 가중되지만 제 경험으로는 과학입니다. 잘 형성되지 않았습니다. 다른 방법으로 수행 할 수 있습니까?
  • @NickCox 분석 관찰 대 적합, 잔차 대 적합 및 정규 qq 플롯을 분석 할 때 무엇을주의해야합니까? 모델마다 다를 수 있음을 이해합니다. 감마, 포아송 및 음이 항의 예를 들어 줄 수 있습니까? 감사합니다
  • @tatami ' 완전히 새로운 질문이거나 그 이상이라고 생각합니다. 물어 보면 ' 누가 물는지 볼 수 있습니다. 저는 ' 감마 모델과 음 이항 모델이 어떤 프로젝트에서도 라이벌이라고 생각한 적이 없습니다. 그러나 그것은 상상력이나 경험의 실패 일 수 있습니다.

답변

감마 회귀는 GLM에 있으므로 편차 잔차, 레버리지, Cook과 같은 진단 목적에 유용한 많은 양을 얻을 수 있습니다. ” s 거리 등. 로그 변환 데이터의 해당 수량만큼 좋지 않을 수 있습니다.

감마 회귀가 로그 정규에 비해 피하는 한 가지는 변환 편향입니다. Jensen의 불평등은 다음을 의미합니다. 로그 정규 회귀의 예측은 변환 된 예상 값이 아닌 변환 된 데이터 를 모델링하기 때문에 체계적으로 편향됩니다.

또한 감마 회귀 (또는 음이 아닌 데이터에 대한 다른 모델)도 가능합니다. 지수 dist와 같이 0에서 모드를 가질 수 있기 때문에 로그 정규보다 광범위한 데이터 배열에 대처하십시오. 감마 계열에 속하는 리 부션으로, 로그 정규에서는 불가능합니다.

푸 아송 우도를 유사 우도로 사용하는 것이 더 안정적이라는 제안을 읽었습니다. 그들은 “서로의 켤레입니다. 준 푸아 송은 또한 감마와 특히 로그 노멀 모두에 문제가되는 정확한 0 값에 대처할 수 있다는 실질적인 이점을 가지고 있습니다.

답변

제 생각에는 오류가 같은 모양의 감마 분포 군에 있다고 가정합니다. 관련 공식에 따라 스케일이 달라 지죠.

하지만 모델 진단은 어렵습니다. 간단한 QQ 플롯은 여기에 적합하지 않습니다. 왜냐하면 거의 동일한 분포이기 때문입니다. 반면 우리는 분산이 다른 분포 군입니다.

순진하게도 잔차 플롯을 사용하여 일반적으로 긴 꼬리가있는 동일한 모양입니다.

내 경험상 감마 GLM은 몇 가지 긴 꼬리 분산 문제에 대해 시도 될 수 있으며 보험 및 환경 분야 등에서 널리 사용됩니다. 가정은 테스트하기 어렵고 모델은 일반적으로 잘 수행되지 않으므로 다른 논문에서는 역 가우시안 등과 같은 동일한 문제를 가진 다른 가족 분포를 사용한다고 주장합니다. 실제로 그러한 선택은 전문가의 판단에 따라 달라지는 것 같습니다. 산업 경험. 이것은 감마 GLM의 사용을 제한합니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다