Fisher 정보 매트릭스의 차원 및 항목 정의에 대한 기본 질문

저는 최대 가능성 추정 (MLE)에 대해 자신을 소개하려는 초보자이며 일부를 파악할 수 있습니다. 우도 함수에서 피크를 찾고, Cramer-Rao 경계에 접근하고, Fisher 정보 매트릭스를 반전하여 공분산 행렬과 분산 추정값을 도출하는 것과 같이 재료를 적절하게 파악할 수 있습니다. 역설적이게도 을 고정하는 데 더 많은 문제가 있습니다. 정확히 Fisher Matrix의 열, 행 및 항목이 표현하고 구조를 정의해야하는 내용. 나는 지난 1 년 동안 1 ~ 24 개의 참고 문헌을 훑어 봤고 (그리고 CrossValidated에서 검색), 행렬의 다른 측면에 대한 논의는 일반적으로 철저하지만 공식에 실제 값이 연결된 예는 아직 보지 못했습니다.

다른 스레드에서 고급 주제가 겹치지 않도록 자세히 설명하겠습니다. 내 혼란의 대부분은 이것에서 비롯된 것 같습니다. 행렬 방정식의 적분은 제수에 대한 2 차 도함수 및 우도 함수 결과를 가지며, 일반적으로 i 및 j와 같은 두 개의 첨자가있는 피제수에 대한 단일 매개 변수에 대한 두 개의 도함수를 갖습니다. (예를 보려면 Wikipedia 항목 및 이 항목 참조). 항상 정확히 두 개의 첨자가있는 것 같습니다. 이는 2 차원 행렬을 의미하고 아래에 관련 질문을하게 만듭니다.

하나의 처리와 하나의 매개 변수 만 있으면 1 차원 행렬을 의미합니다. 그렇다면 행렬 첨자 i와 j는 무엇을 참조할까요? Fisher Matrix 방정식에서 피제수를 도출하기 위해 단일 차원의 외적을 수행해야합니까?
두 개가있는 경우 열과 행 구조가 어떻게 변경됩니까? 단일 매개 변수를 추정하는 데 필요합니까? 이것이 2D 매트릭스를 의미합니까?
하나의 처리와 두 개의 매개 변수 (예 : 규모 및 모양)가있는 반대 상황이 질문 # 2에 차이를 만들까요? 이것이 실용적이지 않을 것이라고 생각합니다. 일부 분포의 경우 매개 변수 중 하나가 우도 함수에서 다른 하나를 도출하는 데 필요한 경우.
2 개 이상의 처리와 2 개 이상의 매개 변수가있는 경우 매트릭스 구조를 변경하고 항목을 계산하려면 어떻게해야합니까? 이것은 3D 이상의 매트릭스를 의미하는 것 같습니다.이 경우 우리는 i와 j보다 더 많은 첨자가 필요합니다. 지금까지 훑어 본 텍스트, 저널 기사 및 자습서에서 해당 효과에 대한 공식을 아직 보지 못했습니다. (필요한 경우 참조 목록이 있습니다). 이것은 일반적으로 실제 MLE에서 수행됩니까?
매트릭스를 확장하여 매개 변수와 함께 개별 분포 또는 분포 군을 포함 할 수 있습니까? 이것이 매트릭스의 구조에 어떤 영향을 미칠까요?
후자를 사용할 수있는 경우 행렬 항목이 우도와 관측 값 모두에 대한 계산 조합으로 구성 될 수 있습니까? https://en.wikipedia.org/wiki/Fisher_information_metric#Definition 의 Fisher Metric 공식은 가능성을 PDF로 대체하는 것 같습니다. 이것이 관찰 된 정보와 Fisher 정보를 혼합하는 것으로 간주됩니까? 질문의이 부분은 관찰 된 정보와 Fisher 정보 사이의 미묘한 차이와 같은 다른 주제로 이어질 수 있습니다. 두 가지 유형의 항목이 동일한 매트릭스에서 혼합 된 적이 있는지 궁금합니다. 거의 항상 분리되어 있다고 가정합니다.

알겠습니다. 내가 찾고있는 대답은 아마 당연한 것입니다. 저는 분명히 몇 가지 간단한 기본 개념을 잘못 이해하고 있습니다.이 걸림돌을 통과하면 몇 가지 확률 함수를 Fisher 공식에 신속하게 연결하고 몇 가지 공분산 행렬을 반환하고 몇 가지 MLE를 선택하는 연습을 할 수 있어야합니다. 일반적으로 그것은 어려운 일입니다. 하지만이 기본 작업에 갇혀 있습니다. 그림은 말하자면 천 단어의 가치가 있습니다. 실제 값이 연결된 예제를 본다면 위의 질문에 대한 답은 즉시 명확해질 것입니다. 남은 것은 다음을 사용하여 일반적인 공식에서 행렬을 채우는 방법을 설명하는 것입니다. 두 개의 아래 첨자 만 또는 여러 처리 및 매개 변수를 수용하기 위해 공식에 대한 모든 변경. 그러한 예나 연습에 대한 링크도 도움이 될 것입니다. 미리 감사드립니다. 🙂

정말로 직접 답변하려고했지만 친근한 조언이므로 +1하세요. 계속해서 수정하세요. 이것은 더 작은 질문으로. 그 정도까지 로그 우도 비용 함수를 수치 적으로 평가하고 헤세 행렬을 얻고 편미분이 어떻게 생겼는지 직접 확인할 수 없습니까? (원하면 내가 할 수 있습니다.) 불연속 형이 아닌 연속 형 변수로 시작하십시오. (나는 또한 더 많은 매개 변수가하는 일을 혼동한다고 생각합니다. 그들은 전체 치수가 아닌 디자인 매트릭스에만 열을 추가합니다.)
조언에 감사드립니다. ‘ 오늘 밤과 내일 몇 번 편집하여 잘라낼 것입니다. 저는 ‘ 1 개의 매개 변수 대 2 개 대 여러 매개 변수 및 처리를 사용하여 행렬을 도출하는 프로세스에 관심이 있습니다. 이것이 ‘ 제게 진짜 고집 포인트입니다. ‘ 2 개의 첨자가있는 Fisher 공식 버전을 고려할 때 이러한 세 가지 시나리오를 다르게 처리하는 방법을 상상할 수 없습니다. 감사합니다 🙂
가장 간결한 방법은 1) 하나의 매개 변수 2) 두 개의 매개 변수 & 3) 여러 개의 실제 Fisher 매트릭스의 스크린 샷 / 링크입니다. 각 열 / 행의 수량이 명확하게 표시되는 한 여러 처리가있는 매개 변수. 또는 간단한 ” 여러 매개 변수 & 처리를 사용하면 X 개의 열과 Y 개의 행이 있습니다. 하나의 매개 변수를 사용하면 값은 여기에 있습니다. X. etc ” 추가 매개 변수 & 처리를 수용하기 위해 변경이 필요하지 않는 한 공식 / 연습은 필요하지 않습니다. 나는 & 스스로 할 수 있습니다. 내 구조를 비교하기 위해 완성 된 예제가 필요합니다.
이것은 대답하기가 다소 어렵습니다. & 파생물에 갇혀 있거나 해석에 대해 혼란스러워하는 부분을 & 보여주는 것이 더 쉬울 것 같습니다. 하지만 우선 ‘ ” 치료 “가 무엇을 의미합니까? 관찰? 실험적인 치료?
@Scortchi 대답은 ‘ 아마도 매우 간단합니다. 수식에서 정확히 2 개의 첨자 i & j를 사용하는 것은 I ‘가 파생에 갇혀있는 유일한 지점입니다. 단일 매개 변수 또는 여러 매개 변수 / 치료를 수용 할 수있는 방법을 ‘ 잡을 수 없습니다. 명확하게 레이블이 지정된 열 & 행이있는 실제 완성 된 Fisher 정보 매트릭스를 보면 답이됩니다. 문헌에는 ‘ 그다지 많지 않습니다. 저는 ‘ ” 아하, 이것이 2 개의 첨자가 3 개의 매개 변수 또는 1 개 등을 처리 할 수있는 이유입니다. ” ‘ 완제품 I의 구조입니다. ‘ m 이후에는 더 이상 없습니다.

Answer

Fisher 정보는 숫자가있는 대칭 정사각형 행렬입니다. “추정하는 매개 변수의 수와 같은 행 / 열의 수입니다.”점수의 공분산 행렬, & “가 각 매개 변수에 대한 점수 또는 각 매개 변수에 대한 기울기가있는 Hessian의 음수입니다. 다른 실험적 처리를 고려하려면 모델에 더 많은 매개 변수를 추가하여 그 효과를 나타냅니다. 즉, 더 많은 차원이 아닌 더 많은 행 / 열 — 행렬에는 정의에 따라 2 차원이 있습니다.) g 매개 변수가 하나 뿐인 경우 Fisher 정보는 일대일 행렬 (스칼라) —의 분산 또는 음의 2 차 도함수의 예상 값입니다. , 점수.

$ n $ 관측 값이있는 $ x $에 대한 $ Y $의 단순 선형 회귀 모델

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

여기서 $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $에는 세 가지 매개 변수, 즉 절편 $ \ beta_0 $, 기울기 $ \ beta_1 $, 오류 분산 $ \ sigma ^ 2 $; Fisher 정보는

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname입니다. {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = &-\ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

여기서 $ \ ell (\ cdot) $는 매개 변수의 로그 가능도 함수입니다. ($ x $는 특정 처리를 나타내는 더미 변수 일 수 있습니다.)

완벽 함-it ‘ 정확히 내가 필요한 것입니다. 나는 ‘ 하룻밤 사이에이 문제를 검토하고 설명이 필요한지 확인합니다. 지금 당장은 ‘ 아무것도 찾을 수 없지만이 답변은 이미 해결되었습니다. 위에서 언급 한 모든 다양한 시나리오가 한 번에 사라졌습니다. 감사합니다
@Scortchi ‘ 예제의 구조는 연결된 Fisher 수식이 숫자를 수용하기 위해 두 개의 행렬 첨자 (i 및 j) 만 필요로하는 방법을 명확하게 보여줍니다. 매개 변수와 값의. 상단 행렬의 각 비 대각선은 피제수에 정확히 두 개의 항을 갖습니다. 각 피제수에서 항을 더하거나 빼는 대신 각각의 고유 한 매개 변수 조합이 행렬에서 행과 열을 더하거나 뺍니다. 대부분의 출판 된 문헌은 ‘ 중요한 구분을 명확하게하지 않아서 혼란 스러웠습니다.

Fisher 정보 매트릭스의 차원 및 항목 정의에 대한 기본 질문

댓글

Answer

댓글

답글 남기기 답글 취소하기