무작위 변수가 있다고 가정합니다. $ X \ sim f (x | \ theta) $ . $ \ theta_0 $ 가 참 매개 변수 인 경우 우도 함수는 최대화되고 미분은 0이어야합니다. 이것이 최대 우도 추정기의 기본 원리입니다.
내가 이해하는대로 Fisher 정보는 다음과 같이 정의됩니다.
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
그러므로 $ \ theta_0 $ 는 실제 매개 변수 인 $ I (\ theta) = 0 $ 입니다. 그러나 $ \ theta_0 $ 가 실제 매개 변수가 아니면 더 많은 양의 Fisher 정보를 갖게됩니다.
내 질문
- Fisher 정보가 “오류를 측정합니까 “주어진 MLE의? 즉, “긍정적 인 Fisher 정보의 존재가 내 MLE가 이상적 일 수 없음을 의미하지 않습니까?”
- “정보”의이 정의는 Shannon이 사용한 정의와 어떻게 다릅니 까? 정보라고 부르는 이유는 무엇입니까?
댓글
- $ E_ \ theta $를 작성하는 이유는 무엇입니까? $ \ theta $ 매개 변수를 사용하여 배포 된 것처럼 배포 된 $ X $ 값을 초과합니다.
- 또한 $ I (\ theta) $는 실제 매개 변수에서 0이 아닙니다.
- E (S)는 0 (예 : 점수 함수의 예상)이지만 Neil G가 쓴 것처럼 어부 정보 (V (S))는 (일반적으로) 0이 아닙니다.
답변
다른 답을 보완하려고합니다 … Fisher 정보는 어떤 정보입니까? loglikelihood 함수 $$ \ ell (\ theta) = \ log f (x; \ theta) $$를 $ \ theta \ in \ Theta $, 매개 변수 공간에 대한 $ \ theta $ 함수로 시작합니다. 여기서 논의하지 않는 일부 규칙 성 조건을 가정하면 $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (여기서처럼 매개 변수에 대한 미분을 점으로 씁니다). 분산은 Fisher 정보입니다. $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 =-\ E_ \ theta \ ddot {\ ell} (\ theta) $$ 이것이 loglikelihood 함수의 (음의) 곡률임을 보여주는 마지막 공식입니다. 피셔 정보가 점수의 분산으로 $ \ dot {\ ell 일 때 우도 방정식 $ \ dot {\ ell} (\ theta) = 0 $을 풀어 $ \ theta $의 최대 우도 추정량 (mle)을 찾는 경우가 많습니다. } (\ theta) $가 크면 해당 방정식의 해가 데이터에 매우 민감하여 mle의 높은 정밀도에 대한 희망을 제공합니다. 그것은 적어도 점근 적으로 확인되며, mle의 점근 적 분산은 Fisher 정보의 역입니다.
어떻게 해석 할 수 있습니까? $ \ ell (\ theta) $는 샘플의 $ \ theta $ 매개 변수에 대한 우도 정보입니다. 이것은 우도 비 테스트 $ \ ell (\ theta_0)-\ ell (\ theta_1) $를 통해 가능한 두 매개 변수 값의 타당성을 비교할 때와 같이 상대적인 의미로만 해석 될 수 있습니다. loglikelihood의 변화율은 점수 함수입니다. $ \ dot {\ ell} (\ theta) $는 우도 변화의 속도와 그 분산 $ I (\ theta) $ 이것이 샘플마다 얼마나 달라지는지를 알려줍니다. 주어진 매개 변수 값에서 $ \ theta_0 $라고 말하십시오. 방정식 (정말 놀랍습니다!) $$ I (\ theta) =-\ E_ \ theta \ ddot {\ ell} (\ theta) $$는 정보의 변동성 ( 우도) 주어진 매개 변수 값 $ \ theta_0 $ 및 해당 매개 변수 값에 대한 우도 함수의 곡률. 이것은 통계 $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $의 변동성 (분산)과 매개 변수 $ \ theta $를 변경할 때 예상되는 유사도 변화 간의 놀라운 관계입니다. $ \ theta_0 $ 주변의 일정 간격 (동일한 데이터에 대해). 이것은 정말 이상하고 놀랍고 강력합니다!
그렇다면 우도 함수는 무엇일까요? 우리는 일반적으로 통계 모델 $ \ {f (x; \ theta), \ theta \ in \ Theta \} $를 매개 변수 $ \ theta $에 의해 인덱싱 된 데이터 $ x $에 대한 확률 분포 군으로 생각합니다. 매개 변수 공간 $ \ Theta $. 데이터 $ x $이 실제로 확률 분포 $ f (x; \ theta_0) $를 갖도록 $ \ theta_0 \ in \ Theta $에 어떤 값이 있으면이 모델이 참이라고 생각합니다. 따라서 실제 데이터 생성 확률 분포 $ f (x; \ theta_0) $를 확률 분포 군에 삽입하여 통계 모델을 얻습니다. 그러나 이러한 임베딩은 여러 가지 방법으로 수행 될 수 있으며 이러한 임베딩은 각각 “진정한”모델이 될 것이며 서로 다른 우도 함수를 제공 할 것임이 분명합니다. 그리고 그러한 임베딩이 없으면 가능성 함수가 없습니다. 임베딩을 현명하게 선택하는 방법에 대한 몇 가지 원칙과 도움이 정말 필요한 것 같습니다!
그게 무슨 뜻일까요? 이는 우도 함수의 선택이 진실이 조금 변경 될 경우 데이터가 어떻게 변경 될 것으로 예상하는지 알려준다는 것을 의미합니다. 그러나 데이터는 실제로 데이터를 생성 한 실제 모델 함수 $ f (x; \ theta_0) $에 대한 정보 만 제공하고 선택한 모델의 다른 모든 요소에 대한 정보는 제공하지 않으므로 실제로 데이터로 확인할 수 없습니다. 이런 식으로 우도 함수의 선택이 베이지안 분석의 이전 선택과 유사하다는 것을 알 수 있으며 비 데이터 정보를 분석에 주입합니다. 간단한 (다소 인위적인) 예제에서 이것을 살펴보고 $ f (x; \ theta_0) $를 모델에 다른 방식으로 임베딩 한 효과를 살펴 보겠습니다.
$ X_1, \ dotsc, X_n $이 $ N (\ mu = 10, \ sigma ^ 2 = 1) $와 같은 iid라고 가정하겠습니다. 이것이 진정한 데이터 생성 분포입니다. 이제이를 모델 A와 모델 B의 두 가지 방법으로 모델에 삽입 해 보겠습니다. $$ A \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ 이것이 $ \ mu = 10 $와 일치하는지 확인할 수 있습니다.
loglikelihood 함수는 $$ \ ell_A (\ mu) =-\ frac {n} {2} \ 로그 (2 \ pi)-\ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) =-\ frac {n} {2} \ log (2 \ pi)-\ frac {n} {2} \ log (\ mu / 10)-\ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
점수 함수 : (로그 우도 도함수) : $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x}-\ mu) \\ \ dot {\ ell} _B (\ mu) =-\ frac {n } {2 \ mu}-\ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2-15n $$ 및 곡률 $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ 따라서 Fisher 정보는 임베딩에 실제로 의존합니다. 이제 실제 값 $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ 따라서 매개 변수에 대한 Fisher 정보는 모델 B에서 약간 더 큽니다.
이것은 어떤 의미에서 Fisher 정보는 지배 매개 변수가 변경된 경우 매개 변수 데이터의 정보가 얼마나 빨리 변경되었는지 알려줍니다. 모델 패밀리에 임베딩하여 가정 한 방식 . 모델 B의 더 높은 정보에 대한 설명은 모델 제품군 B가 기대치가 증가하면 분산도 증가 할 것이라고 가정 한 입니다. . 따라서 모델 B에서 표본 분산은 $ \ mu $에 대한 정보도 전달합니다. 모델 A에서는 수행하지 않습니다.
또한이 예는 도움을주기위한 몇 가지 이론이 실제로 필요함을 보여줍니다. 모델 패밀리를 구성하는 방법에 대해 설명합니다.
댓글
- 좋은 설명입니다. $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $라고 말하는 이유는 무엇입니까? ' $ \ theta $의 함수입니다. ' 진정한 매개 변수 $ \ theta_0 $에서 평가할 때만 0이 아닙니다.
- 예, 말씀하신 내용이 참입니다. @idadanny 참 매개 변수 값으로 평가하면 0입니다.
- 다시 감사합니다. @kjetil-한 가지 더 질문 만하면됩니다. 점수의 분산과 모든 $ \ theta $에 대한 가능성의 곡률이 참입니까? 아니면 참 매개 변수 $ \ theta_0 $ 근처에서만?
- 다시 말하지만, 그 trelationship은 참 매개 변수 값에 대해 참입니다. 그러나 그것이 많은 도움이 되려면 연속성이 있어야합니다. 그래서 우리는 참 (알 수 없음) 에서뿐만 아니라 추정 된 값 $ \ hat {\ theta} $에서 사용할 것이기 때문에 일부 지역에서는 거의 사실입니다. 값입니다.
- 따라서 관계는 실제 매개 변수 $ \ theta_0 $에 대해 유지되며, 우리가 그것을 가정하기 때문에 거의 $ \ theta_ {mle} $에 대해 유지됩니다. ' s는 $ \ theta_0 $ 근처에 있지만 일반적인 $ \ theta_1 $의 경우 유지되지 않습니다.
답변
Let “은 음의 로그 가능도 함수 $ \ ell $로 생각합니다. 음수 점수는 매개 변수 값에 대한 기울기입니다. 참 매개 변수에서 점수는 0입니다. 그렇지 않으면, 최소 $ \ ell $ 방향을 제공합니다 (또는 볼록하지 않은 $ \ ell $의 경우 안장 지점 또는 로컬 최소값 또는 최대 값).
Fisher 정보는 $의 곡률을 측정합니다. 데이터가 $ \ theta $ 뒤에 오는 경우 $ \ theta $ 주변 \ ell $. 즉, 얼마나 많이 흔들리는지를 알려줍니다. 매개 변수는 로그 가능성에 영향을 미칩니다.
수백만 개의 매개 변수가있는 큰 모델이 있다고 가정 해보십시오. 그리고 모델을 저장할 작은 썸 드라이브가 있습니다. 저장할 각 매개 변수의 비트 수에 우선 순위를 지정해야합니까? 정답은 Fisher 정보에 따라 비트를 할당하는 것입니다 (Rissanen이 이에 대해 썼습니다). 매개 변수의 Fisher 정보가 0이면 해당 매개 변수는 중요하지 않습니다.
Fisher 정보는이 매개 변수가 데이터에 대해 알려주는 정도를 측정하기 때문에이를 “정보”라고 부릅니다.
이에 대해 구어 적으로 생각하는 방법은 다음과 같습니다. 매개 변수 가 자동차를 운전하고 있으며 데이터 가 뒷좌석에있어 운전자를 수정합니다. 데이터의 성가심은 Fisher 정보입니다. 데이터로 인해 운전자가 운전할 수있는 경우 Fisher 정보는 0입니다. 데이터가 지속적으로 수정하는 경우 큰 데이터입니다. 이런 의미에서 Fisher 정보는 데이터에서 매개 변수로 이동하는 정보의 양입니다.
핸들을 더 많이 만들면 어떻게되는지 생각해보십시오. 이것은 재 매개 변수화와 동일합니다.이 경우 데이터는 자동차 오버 스티어링에 대한 두려움 때문에 너무 큰 소리를 내고 싶지 않습니다. 이러한 종류의 재 매개 변수화는 Fisher 정보를 줄입니다.
Answer
@NeilG “의 멋진 답변 (+1)과 구체적인 질문에 답하십시오.
- “오류”자체가 아니라 “정확도”를 계산한다고 말하고 싶습니다.
로그의 헤세 행렬을 기억하십시오. ML 추정치에서 평가 된 가능성은 관측 된 Fisher 정보입니다. 추정 된 표준 오차는 관측 된 Fisher 정보 행렬의 역대 각 요소의 제곱근입니다. 이로부터 Fisher 정보의 어간은 Fisher 정보 행렬의 흔적입니다. Fisher 정보 행렬 $ I $가 Hermitian 양의 준 유한 행렬 행렬 인 경우 대각선 항목 $ I_ {j, j} $는 실수가 아니고 음이 아닙니다. 직접적인 결과로 $ tr (I) $를 추적합니다. 이는 귀하의 주장에 따라 “비 이상적인”추정값 만 가질 수 있음을 의미합니다. 따라서 긍정적 인 Fisher 정보는 다음과 관련이 없습니다. 귀하의 MLE가 얼마나 이상적입니까?
- 두 경우 모두 정보 개념을 해석하는 방식에 따라 정의가 다릅니다. 하지만 두 측정은 밀접하게 관련되어 있습니다.
Fisher 정보의 역은 편향되지 않은 추정기 ( Cramér– 라오 바운드 ). 그런 의미에서 정보 행렬은 추정 된 계수에 대한 정보가 데이터에 얼마나 포함되어 있는지를 나타냅니다. 반대로 섀넌 엔트로피는 열역학에서 가져 왔습니다. 변수의 특정 값에 대한 정보 내용을 $ –p · log_2 (p) $로 연결합니다. 여기서 $ p $는 변수가 값을 취할 확률입니다. 둘 다 변수가 얼마나 “유익한”지 측정합니다. 첫 번째 경우에는 정확도 측면에서이 정보를 판단하고 두 번째 경우에는 장애 측면에서 판단합니다. 다른면, 같은 동전! : D
요약 : ML 추정값에서 평가 된 Fisher 정보 행렬 $ I $의 역은 점근 또는 근사 공분산 행렬입니다. 이 ML 추정기 값은 로컬 최소값에서 그래픽으로 발견되므로 Fisher 정보는 최소값이 얼마나 깊고 그 주위에 얼마나 많은 공간이 있는지 보여줍니다. 이 논문은 Lutwak et al. Fisher 정보의 확장과 Stam의 불평등 에 대해이 문제에 대한 정보를 읽어보세요. Fisher Information Metric 및 Jensen–Shannon divergence 에 대한 Wikipedia 기사도 유용합니다. 시작하세요.