이것은 다소 초보자의 질문이지만 6.012의 exp (B) 결과를 어떻게 해석합니까? 다항 로지스틱 회귀 모델에서?
1) 6.012-1.0 = 5.012 = 5012 % 위험 증가입니까?
또는
2) 6.012 / ( 1 + 6.012) = 0.857 = 85.7 % 위험 증가?
두 대안이 모두 틀린 경우 누군가 올바른 방법을 언급 해 주시겠습니까?
인터넷에서 많은 리소스를 검색했으며 이 두 가지 대안을 찾았지만 어느 것이 올바른지 완전히 확신 할 수 없습니다.
답변
요약하자면 B에 해당하는 변수의 1 단위 변경은 결과의 상대적 위험 (기본 결과와 비교)에 6.012를 곱합니다.
상대적 위험이 “5012 %”증가한 것으로 표현할 수 있지만 이는 “혼란스럽고 잠재적 인 사실 다항 로지스틱 모델은 우리가 곱셈 적으로 생각하도록 강력하게 권장 할 때, 우리가 변화를 추가적으로 생각해야한다는 것을 암시하기 때문에 결국 오해의 소지가 있습니다. 변수의 변경은 문제의 결과뿐만 아니라 모든 결과의 예측 확률을 동시에 변경하기 때문에 수정 자 “상대적”은 필수적입니다. 따라서 확률을 비교해야합니다 ( 비율, 차이가 아님).
이 답변의 나머지 부분은 이러한 진술을 올바르게 해석하는 데 필요한 용어와 직관을 발전시킵니다.
배경
다항식 사례로 이동하기 전에 일반적인 로지스틱 회귀부터 시작하겠습니다.
종속 (이진) 변수 $ Y $ 및 독립 변수 $ X_i $의 경우 모델은
$입니다. $ \ Pr [Y = 1] = \ frac {\ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)} {1+ \ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)}; $$
동등하게, $ 0 \ ne \ Pr [Y = 1] \ ne 1 $,
$$ \ log (\ rho (X_1, \ cdots, X_m)) = \ log \ frac {\ Pr [Y = 1]} {\ Pr [Y = 0]} = \ beta_1 X_1 + \ cdots + \ beta_m X_m. $$
(이것은 단순히 $ \ rho $를 정의합니다. $ X_i $의 함수로서 배당률 입니다.)
일반성을 잃지 않고 x는 $ X_i $이므로 $ X_m $는 변수이고 $ \ beta_m $은 질문에서 “B”입니다 ($ \ exp (\ beta_m) = 6.012 $). $ X_i, 1 \ le i \ lt m $의 값을 고정하고 $ X_m $를 소량 $ \ delta $로 변경하면 결과가 나타납니다.
$$ \ log (\ rho (\ cdots, X_m + \ delta))-\ log (\ rho (\ cdots, X_m)) = \ beta_m \ delta. $$
따라서 $ \ beta_m $ 는 다음과 관련된 로그 배당률의 한계 변화입니다. $ X_m $.
$ \ exp (\ beta_m) $를 복구하려면 분명히 $ \ delta = 1 $를 설정하고 왼쪽을 지수화해야합니다.
$$ \ eqalign {\ exp (\ beta_m) & = \ exp (\ beta_m \ times 1) \\ & = \ exp (\ log (\ rho (\ cdots, X_m + 1))-\ log (\ rho (\ cdots, X_m))) \\ & = \ frac {\ rho ( \ cdots, X_m + 1)} {\ rho (\ cdots, X_m)}. } $$
이것은 $ X_m $의 1 단위 증가에 대한 승산 비 로 $ \ exp (\ beta_m) $을 나타냅니다. 이것이 의미하는 바에 대한 직관을 발전 시키려면 시작 배당률 범위에 대한 일부 값을 표로 작성하고 패턴이 돋보 이도록 크게 반올림합니다.
Starting odds Ending odds Starting Pr[Y=1] Ending Pr[Y=1] 0.0001 0.0006 0.0001 0.0006 0.001 0.006 0.001 0.006 0.01 0.06 0.01 0.057 0.1 0.6 0.091 0.38 1. 6. 0.5 0.9 10. 60. 0.91 1. 100. 600. 0.99 1.
정말 작은 확률은 정말 작은 확률에 해당합니다. $ X_m $에서 1 단위 증가의 효과는 확률 또는 확률을 곱하기 하는 것입니다. 약 6.012. 승산 계수는 확률 (및 확률)이 커짐에 따라 감소 하며, 확률이 10을 초과하면 (확률이 0.9를 초과) 기본적으로 사라집니다.
가산 적 변화로서 큰 차이는 없습니다. 0.0001과 0.0006의 확률 (0.05 %에 불과 함) 사이에 있고 0.99와 1 사이에 많은 차이가 없습니다 (1 %에 불과). 가장 큰 가산 효과는 배당률이 $ 1 / \ sqrt {6.012} \ sim 0.408 $ 일 때 발생하며, 여기서 확률은 29 %에서 71 %로 변경됩니다 : + 42 % 변경
그러면 “위험”을 승산 비로 표현하면 $ \ beta_m $ = “B”는 간단한 해석이됩니다. 승산 비는 $ X_m $ 단위 증가에 대해 $ \ beta_m $과 같습니다.하지만 확률 변화와 같은 다른 방식으로 위험을 표현할 때는 시작 확률을 지정하는 데주의가 필요합니다.
다항 로지스틱 회귀
(나중의 편집으로 추가되었습니다.)
기회를 표현하기 위해 로그 배당률을 사용하는 것의 가치를 인식 했으니 “s는 다항식 사례로 이동합니다. 이제 종속 변수 $ Y $는 $ i = 1, 2, \ ldots, k $로 색인 된 $ k \ ge 2 $ 범주 중 하나와 같을 수 있습니다. 상대적 $ i $ 카테고리에 속할 확률은
$$ \ Pr [Y_i] \ sim \ exp \ left (\ beta_1 ^ {(i)} X_1 + \ cdots + \ beta_m ^ { (i)} X_m \ 오른쪽) $ $
$ \ beta_j ^ {(i)} $ 매개 변수를 결정하고 $ \ Pr [Y = \ text {category} i] $에 $ Y_i $를 작성합니다.약어로 $ p_i (X, \ beta) $ 또는 $ X $ 및 $ \ beta $가 문맥 상 분명한 경우 $ p_i $로 오른쪽 표현식을 작성해 보겠습니다. 상대 확률의 합은 단일성을 제공합니다
$$ \ Pr [Y_i] = \ frac {p_i (X, \ beta)} {p_1 (X, \ beta) + \ cdots + p_m (X, \ beta )}. $$
(매개 변수에 모호성이 있습니다. 매개 변수가 너무 많습니다. 일반적으로 비교를 위해 “기본”범주를 선택하고 모든 계수를 0으로 만듭니다. 그러나, 베타의 고유 한 추정치를보고하는 데 필요하지만 계수를 해석 할 필요는 아닙니다 . 대칭을 유지하기 위해 (즉, 카테고리 간의 인위적인 차이를 피하기 위해) 이 모델을 해석하는 한 가지 방법은 모든 카테고리 (예 : 카테고리 $ i $)에 대한 로그 배당률의 한계 변화율을 요청하는 것입니다.)
독립 변수 중 하나 (예 : $ X_j $). 즉, $ X_j $를 약간 변경하면 $ Y_i $의 로그 배당률이 변경됩니다. 우리는이 두 가지 변화와 관련된 비례 상수에 관심이 있습니다. 미적분의 연쇄 법칙은 약간의 대수와 함께이 변화율이
$$ \ frac {\ partial \ \ text {log odds} (Y_i)} {\ partial \ X_j}라고 알려줍니다. = \ beta_j ^ {(i)}-\ frac {\ beta_j ^ {(1)} p_1 + \ cdots + \ beta_j ^ {(i-1)} p_ {i-1} + \ beta_j ^ {(i + 1)} p_ {i + 1} + \ cdots + \ beta_j ^ {(k)} p_k} {p_1 + \ cdots + p_ {i-1} + p_ {i + 1} + \ cdots + p_k}. $ $
이것은 $ Y $가 범주 $ i $에서 “를 뺀 확률에 대한 공식에서 $ X_j $의 계수 $ \ beta_j ^ {(i)} $로 비교적 간단하게 해석됩니다. 조정.” 조정은 다른 모든 카테고리에서 $ X_j $ 계수의 확률 가중 평균 입니다. 가중치는 독립 변수 $ X $의 현재 값과 관련된 확률을 사용하여 계산됩니다. 따라서 로그의 한계 변화가 반드시 일정하지는 않습니다. 문제의 카테고리 (카테고리 $ i $)가 아닌 다른 모든 카테고리의 확률에 따라 달라집니다.
$ k = 2 $ 범주, 이것은 일반적인 로지스틱 회귀로 줄여야합니다. 실제로 확률 가중치는 아무것도하지 않으며 ($ i = 2 $를 선택하면) $ \ beta_j ^ {(2)}-\ beta_j ^ {(1)} $의 차이를 제공합니다. $ i $ 카테고리를 기본 케이스로두면 $ \ beta_j ^ {(1)} = 0 $을 강제하기 때문에이를 $ \ beta_j ^ {(2)} $로 더 줄여줍니다. 따라서 새로운 해석은 이전 해석을 일반화합니다.
$ \ beta_j ^ {(i)} $를 직접 해석하려면 이전 공식의 한쪽에서 분리하여 다음과 같은 결과를 얻습니다.
$ i $ 범주에 대한 $ X_j $의 계수는 $ X_j $, + 카테고리 $ i $에 대한 다른 모든 $ X_ {j “} $ 계수의 확률 가중 평균.
약간 덜 직접적인 또 다른 해석은 (일시적으로) 범주 $ i $를 기본 케이스로 설정하여 모든 독립 변수 $ X_j $에 대해 $ \ beta_j ^ {(i)} = 0 $을 만듭니다.
변수 $ X_j $에 대한 기본 케이스의 로그 배당률의 한계 변화율은 모든 계수에 대한 확률 가중치 평균의 음수입니다. 다른 경우.
실제로 이러한 해석을 사용하려면 일반적으로 베타 및 소프트웨어 출력의 확률과 표시된대로 계산을 수행합니다.
마지막으로 지수화 된 계수의 경우 두 결과 간의 확률 비율 (비교 된 $ i $의 “상대 위험”이라고도 함)에 유의하십시오. $ i “$)는
$$ \ frac {Y_ {i}} {Y_ {i”}} = \ frac {p_ {i} (X, \ beta)} {p_ {i “} (X, \ beta)}. $$
$ X_j $를 $ X_j + 1 $까지 1 단위 증가시킵니다. 이것은 $ p_ {i} $에 $ \ exp (\ beta_j ^ {(i)}) $를 곱하고 $ p_ {i “} $에 $ \ exp (\ beta_j ^ {(i”)}) $를 곱합니다. 상대 위험에 $ \ exp (\ beta_j ^ {(i)}) / \ exp (\ beta_j ^ {(i “)}) $ = $ \ exp (\ beta_j ^ {(i)}-\ beta_j ^를 곱합니다. {(i “)}) $. $ i “$ 카테고리를 기본 케이스로 사용하면 $ \ exp (\ beta_j ^ {(i)}) $로 줄어 듭니다.
지수 계수 $ \ exp (\ beta_j ^ {(i)}) $는 상대적 위험 $ \ Pr [Y = \ text {category} i] / \ Pr [Y = \ text { base category}] $는 $ X_j $ 변수가 1 단위 증가 할 때 곱해집니다.
댓글
- 좋은 설명이지만 OP는 명시 적으로 다항식 모델을 요청했습니다. OP가 의도 한 것보다 더 많은 질문을 읽고있을 수 있으며 바이너리 케이스에 대한 설명이 적절할 수 있지만 이 답변이 일반적인 다항식 경우에도 적용되는 것을보고 싶습니다.매개 변수화가 유사하더라도 " log-odds "는 일반적으로 (임의) 참조 카테고리와 관련되어 있으며 실제 로그 확률이 아니며 $ X_i $의 단위 변경으로 인해 이러한 " log-odds "가 결합 된 변경이 발생합니다. 증가하는 " log-odds "는 확률을 의미하거나 증가하지 않습니다.
- @NRH That ' 좋은 점입니다. " 다항식 대신 " 다 변수 "를 읽었습니다. 12d16fc3a6 “>
여기로 돌아올 기회가 생기면 세부 사항을 구체화하려고 노력할 것입니다. 다행히도 동일한 분석 모드가 올바른 해석을 찾는 데 효과적입니다.
답변
@whuber는 이미 잘 썼습니다. exp (B) = 6이면 해당 예측 변수의 1 증가와 관련된 승산 비는 6입니다. 다항 컨텍스트에서 “승산 비”는 다음 두 수량의 비율을 의미합니다. a) 승산 ( 확률이 아니라 p / [1-p]) 문제의 출력 테이블에 표시된 종속 변수의 값을 사용하는 경우의 p / [1-p]) 및 b) 종속 변수의 기준 값을 사용하는 경우의 확률
당신은 하나 또는 다른 범주에 속하는 케이스의 확률 (확률보다는)을 정량화하려고하는 것 같습니다. 이를 위해서는 케이스가 “시작된”확률을 알아야합니다. 즉, 문제의 예측 변수에 대해 1의 증가를 가정하기 전에. 확률 비율은 사례별로 다르지만 예측 변수에서 1 증가와 관련된 확률 비율은 동일하게 유지됩니다.
댓글
- " exp (B) = 6이면 해당 예측 변수의 1 증가와 관련된 승산 비는 6입니다 ", @whuber '의 대답을 올바르게 읽으면 예측 자에서 1이 증가하면서 승산 비 배당률 에 6을 곱할 것이라고 말합니다. 즉, 새로운 승산 비는 6이 아닙니다. 아니면 제가 잘못 해석하고 있습니까?
- 어디에서 " 새로운 승산 비 ratio 는 6이 아닙니다. " " 새로운 확률 은 6이 아닙니다 … 그러나 새 확률 의 비율은 6입니다. "
- 예, 동의합니다! 하지만 저는 " 문제의 예측 변수가 1 증가하는 것과 관련된 승산 비가 6이라고 생각했습니다. " 실제로는 . 그러나 아마도 나는 그것을 잘못 해석하고있을 것입니다. 설명해 주셔서 감사합니다!
답변
또한 동일한 답변을 찾고 있었지만 위의 내용은 나를 위해 만족스럽지 않습니다. 그것이 실제로 무엇인지는 복잡해 보였습니다. 그래서 해석을하겠습니다. 제가 틀렸다면 정정 해주세요.
하지만 중요하므로 끝까지 읽어주세요.
모든 값 B와 Exp ( B) 당신이 찾고있는 한 번입니다. B가 음수이면 Exp (B)가 1보다 낮아져 확률이 감소합니다. Exp (B)가 1보다 높으면 배당률이 높아집니다. Exp (B) 인수를 곱하기 때문입니다.
안타깝게도 아직 거기에 있지 않습니다. 다항 회귀 분석에서 종속 변수에는 여러 범주가 있으므로 이러한 범주를 D1, D2 및 D3이라고 부르겠습니다. 그 중 마지막이 참조 범주입니다. 첫 번째 독립 변수가 성별 (남성 대 여성)이라고 가정 해 보겠습니다.
D1-> 남성의 출력이 exp (B) = 1.21이라고 가정 해 보겠습니다. 이는 남성의 경우 D3 (참조 범주)이 아닌 범주 D1에 속하기 위해 배당률이 1.21 배 증가 함을 의미합니다. 여성과 비교 (참조 범주).
따라서 항상 종속 변수와 독립 변수의 참조 범주와 비교합니다. 공변량 변수가있는 경우 이것은 사실이 아닙니다. X가 1 단위 증가하면 D3가 아닌 카테고리 D1에 속하는 배당률이 1.21 배 증가합니다.
서수 종속 변수가있는 경우 :
서 수가있는 경우 예를 들어 비례 배당률을 가정하기 때문에 순서 회귀를 수행하지 않았습니다. 카테고리는 참조 카테고리입니다. 위와 같은 결과는보고 할 수 있습니다. 그러나 실제로 배당률이 증가하면 더 높은 범주에 속하지 않고 더 낮은 범주에 속할 확률이 증가한다는 것을 명심하십시오!그러나 그것은 순서 형 종속 변수가있는 경우에만 해당됩니다.
백분율의 증가를 알고 싶다면 가상의 승산 수를 가져 와서 100이라고 가정하고 1.21을 곱합니다. 121? 100과 비교할 때 백분율이 얼마나 변했습니까?
Answer
mlogit의 exp (b)가 1.04라고 가정합니다. 숫자에 1.04를 곱하면 4 % 증가합니다. 그것은 b가 아닌 범주 a에 속하는 상대적 위험입니다. 여기서 혼동의 일부는 4 % (곱셈 적 의미)와 4 % 포인트 (가산 적 의미)와 관련이있을 수 있다고 생각합니다. 백분율 변화가 아닌 백분율 변화에 대해 이야기하면 % 해석이 정확합니다. (상대적 위험이 백분율로 표현되지 않기 때문에 후자는 의미가 없습니다.)