Én “kezdő” vagyok, aki megpróbálja bemutatni magam a maximális valószínűség becslésének (MLE), és képes megérteni néhányat anyagának megfelelő keresése, például a valószínűségi függvények csúcsainak keresése, a Cramer-Rao Bound megközelítése és a Fisher Information Matrix megfordítása a kovariancia mátrix és a variancia becslésének levezetéséhez. Ironikus módon több problémám van a próbálkozásokkal pontosan mit képviseljenek a Fisher Matrix oszlopai, sorai és bejegyzései, és meghatározzák annak felépítését. Körülbelül egy vagy két tucat hivatkozást olvastam el az elmúlt egy évben (plusz egy keresés a CrossValidated oldalán), és még nem láttam olyan példákat, amelyek tényleges értékeket csatlakoztattak volna a képletekhez, bár a mátrix egyéb aspektusainak megvitatása általában alapos.
Megpróbálom részletesen elmagyarázni, hogy elkerüljem a fejlettebb témák átfedését más szálakban. Úgy tűnik, hogy zavartságom nagy része ebből fakad: a mátrixegyenlet integráljának másodrendű derivált és valószínűségi függvény eredménye van az osztón, és két deriváltja van az osztalék egyetlen paraméterének, általában két előfizetéssel, például i és j. (Például lásd ezt a Wikipedia bejegyzést és ezt .) Úgy tűnik, mindig pontosan két előfizetés van, ami kétdimenziós mátrixot jelent, és arra késztet, hogy tegyem fel az alábbi kapcsolódó kérdéseket:
-
Ha csak egy kezelésem és egy paraméterem volt, az úgy tűnik, hogy egydimenziós mátrixot jelentsen. Ha igen, mire utalnának az i és j mátrix előfizetők? Szükségem lenne az egyetlen dimenzió kereszttermékére, hogy levezethessem a Fisher Matrix egyenlet osztalékát?
-
Hogyan változna az oszlop- és sorstruktúra, ha kettő lenne kezelések és egyetlen paraméter becsléséhez szükséges? Ez egy 2D-s mátrixot jelentene?
-
A fordított helyzet, amikor egy kezelés és két paraméter (mondjuk skála és alak) változtatna a 2. kérdésen? Úgy gondolom, hogy ez nem lenne praktikus egyes eloszlások esetén, ha az egyik paraméterre szükség volt a másik levezetéséhez a likelihood függvényben.
-
Hogyan módosítanám a mátrix szerkezetét és kiszámítanám a bejegyzéseket, ha két vagy több kezelésem és két vagy több paraméterem van? Úgy tűnik, hogy ez egy 3D-s vagy magasabb mátrixot jelent, ebben az esetben több előfizetésre lenne szükségünk, nem csak az i-nél és a j-nál. Még nem láttam ehhez hasonló képletet a mai napig átfutott szövegekben, folyóiratcikkekben és oktatóanyagokban. (Szükség esetén rendelkezem referencialistával). Ezt általában a valós MLE-kben végzik? Hogyan befolyásolja ez a mátrix szerkezetét?
-
Tudnak-e a mátrixbejegyzések a valószínűség és a megfigyelt értékek számításainak keverékéből is állni, ha ezek rendelkezésre állnak? A Fisher Metric képlet a https://en.wikipedia.org/wiki/Fisher_information_metric#Definition helyen látszólag a PDF-eket helyettesíti a valószínűséggel. Ez a megfigyelt információk és a Fisher Information keverését jelentené? A kérdésnek ez a része más témákhoz vezethet, mint például a megfigyelt és a Fisher-információk közötti finom különbségek, amelyek valószínűleg máshol jobban szerepelnek. Csak arra vagyok kíváncsi, hogy a két típusú bejegyzés valaha keveredik-e ugyanabban a mátrixban. Feltételezem, hogy szinte mindig külön lennének.
hogy az általam keresett válaszok valószínűleg nem gondolkodók; Nyilvánvaló, hogy téves vagyok egy egyszerű mögöttes koncepcióval. Miután túljutok ezen a buktatón, képesnek kell lennem néhány valószínűségi függvény gyors bedugására a Fisher-képletekbe, néhány kovariancia-mátrix visszaadására és néhány MLE kiválasztására; általában ez lenne a nehéz részben, de ragaszkodtam ehhez az alapfeladathoz. Egy kép úgyszólván ezer szót ér: a fenti kérdésekre adott válaszok valószínűleg azonnal egyértelműek lennének, ha a tényleges értékeket tartalmazó példákat látnám csatlakoztatva. Csak akkor maradna meg, hogy elmagyarázzuk, hogyan kell a mátrixot feltölteni a szokásos képlet segítségével csak két előfizetés, vagy felváltva a képlet bármilyen változása a több kezelés és paraméter befogadása érdekében. Az ilyen példákra vagy gyakorlatokra mutató linkek szintén hasznosak lehetnek. Előre is köszönöm 🙂
Hozzászólások
- +1, mert valóban maga próbálta meg megválaszolni, de barátságos tanácsként: Folytasd és szerkessd ezt egy kisebb kérdéssé. Ennyire nem tudja értékelni számszerűen a log-likelihood költségfüggvényt, megkapja annak Hess-féle értékét, és meggyőződhet arról, hogy néznek ki a parciális deriváltak? (Ha akarod, megtehetem.) Először folytonos változóval kezdj, ne pedig diszkrétel. (Azt hiszem, azt is összekeveri, hogy milyen további paraméterek vannak; csak oszlopokat adnak hozzá a tervezési mátrixhoz, a teljes méreteket nem.)
- Köszönöm a tanácsot – ma ‘ megpróbálom ma és holnap néhányszor szerkeszteni, hogy apróra vágjam. ‘ érdekelne, hogy megnézzem a mátrix levezetésének folyamatát egy paraméterrel szemben kettővel szemben több paraméterrel és kezeléssel. Ez ‘ az igazi tapadáspont számomra; ‘ Nem tudom elképzelni, hogyan lehet ezt a három forgatókönyvet másként kezelni, tekintettel a Fisher képlet két előfizetéssel ellátott verziójára. Köszönöm 🙂
- Erre a legtömörebb válasz a tényleges Fisher-mátrixok képernyőképei / linkjei lennének 1) egy paraméter 2) két paraméter & 3) többszörös paraméterek több kezeléssel, feltéve, hogy az egyes oszlopokban / sorokban lévő mennyiségek egyértelműen fel vannak tüntetve. Vagy egy egyszerű, ” több paraméteres & kezeléssel X # oszlop és Y sor lesz. Egy paraméterrel, az értékek ide mennének; X. stb. ” A képletek / áttekintések nem szükségesek, kivéve, ha változtatásokra van szükség az extra paraméterek & kezeléséhez. & ezt magamnak kell megtenni; Csak kész példákra van szükségem ahhoz, hogy összehasonlíthassam a struktúrámat.
- Ez elég ijesztőnek tűnik a válaszadásra. Azt gondolom, hogy könnyebb lehet egy példát & bemutatni, ahol ‘ megragadt a levezetésben, vagy zavarodott az értelmezésben. De kezdetben mit jelent a ‘ a ” kezelés “? Megfigyelés? Kísérleti kezelés?
- @Scortchi A válasz ‘ valószínűleg szokatlanul egyszerű. Pontosan 2 i & j előfizetés használata a képletben az egyetlen pont, ahol I ‘ m beragadt a levezetésbe; ‘ Nem tudom felfogni, hogyan lehet ez egyetlen paramétert vagy több paramétert / kezelést befogadni. A tényleges kész Fisher információs mátrixok megtekintése egyértelműen címkézett oszlopokkal & sorokkal válaszolna rá; csak ‘ t nincs sok az irodalomban. Ezután ‘ d, azt mondom, ” Aha, ezért 2 előfizető képes kezelni 3 vagy csak 1 paramétert stb. Itt vannak a mátrixba kerülne. ” Ez ‘ csak a késztermék szerkezetét I ‘ m után, semmi több.
Válasz
A Fisher információ szimmetrikus négyzetmátrix számmal sor / oszlop megegyezik az általad becsült paraméterek számával. Emlékezzünk arra, hogy “ez a pontszámok kovarianciamátrixa, & ott” minden egyes paraméterhez tartozik pontszám, vagy az elvárás Hessianus negatívja, az egyes paraméterek gradiensével. Ha különböző kísérleti kezeléseket kíván figyelembe venni, akkor azok hatásait úgy képviseli, hogy több paramétert ad hozzá a modellhez; azaz több sort / oszlopot (nem pedig több dimenziót — egy mátrix definíció szerint két dimenzióval rendelkezik.) Ha újra esztimál g csak egyetlen paraméter, a Fisher információ csak egy-egy mátrix (skalár) — a második derivált varianciája vagy negatívjának várható értéke , Az állás.
Egyszerű lineáris regressziós modellhez: $ Y $, $ x $, $ n $ megfigyeléssel.
$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $
ahol $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, három paramétert kell megbecsülni, a metszett $ \ beta_0 $, a lejtő $ \ beta_1 $, & a hibavariancia $ \ sigma ^ 2 $; a Fisher információ
$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operátornév {E} \ left [\ begin {mátrix} \ left (\ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_0} \ jobb) ^ 2 & \ tfrac {\ részleges \ ell (\ béta_0, \ béta_1, \ sigma ^ 2)} {\ részleges \ béta_0} \ tfrac {\ részleges \ ell (\ béta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_1} & \ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_0} \ tfrac { \ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ sigma ^ 2} \\ \ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_1} \ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_0} & \ bal (\ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_1} \ jobb) ^ 2 & \ tfrac {\ részleges \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ részleges \ beta_1} \ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ sigma ^ 2} \\ \ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ részleges \ sigma ^ 2} \ tfrac {\ részleges \ ell (\ béta_0, \ béta_1, \ sigma ^ 2)} {\ részleges \ béta_0} & \ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ sigma ^ 2} \ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ részleges \ beta_1} & \ balra (\ tfrac {\ részleges \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ sigma ^ 2} \ jobb ) ^ 2 \\ \ end {mátrix} \ right] \\ \\ = & – \ operátornév {E} \ balra [\ begin {mátrix} \ tfrac {\ részleges ^ 2 \ ell (\ béta_0, \ béta_1, \ sigma ^ 2)} {(\ részleges \ béta_0) ^ 2} & \ tfrac {\ részleges ^ 2 \ ell (\ béta_0 , \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_0 \ részleges \ beta_1} & \ tfrac {\ részleges ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_0 \ részleges \ sigma ^ 2} \\ \ tfrac {\ részleges ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_1 \ részleges \ beta_0} & \ tfrac {\ részleges ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ részleges \ beta_1) ^ 2} & \ tfrac {\ részleges ^ 2 \ ell (\ béta_ 0, \ beta_1, \ sigma ^ 2)} {\ részleges \ beta_1 \ részleges \ sigma ^ 2} \\ \ tfrac {\ részleges ^ 2 \ ell (\ béta_0, \ béta_1, \ sigma ^ 2)} {\ részleges \ sigma ^ 2 \ részleges \ beta_0} & \ tfrac {\ részleges ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ részleges \ sigma ^ 2 \ részleges \ beta_1} & \ tfrac {\ részleges ^ 2 \ ell (\ béta_0, \ béta_1, \ sigma ^ 2)} {(\ részleges \ sigma ^ 2) ^ 2 } \\ \ end {mátrix} \ right] \\ \\ = & \ balra [\ begin {mátrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {mátrix} \ right] \ end {align} $ $
ahol az $ \ ell (\ cdot) $ a paraméterek log-likelihood függvénye. (Vegye figyelembe, hogy a $ x $ lehet egy dummy változó, amely egy adott kezelést jelez.)
Megjegyzések
- Tökéletes – it ‘ pontosan az, amire szükségem volt. ‘ ezt egyik napról a másikra átgondolom, és megnézem, szükségem van-e további pontosításokra – ‘ nem tudom azonnal észrevenni -, de ez a válasz már foglalkozik a fent említett változatos forgatókönyvek egy csapásra. Köszönet
- A @Scortchi ‘ példa felépítése világosan megmutatja, hogy az általam összekapcsolt Fisher-képletnek csak két mátrix-előfizetésre van szüksége – i és j – bármely szám befogadásához paraméterek és értékek. A felső mátrix minden nem átlójának pontosan két tagja van az osztalékban; Ahelyett, hogy az egyes osztalékokból összeadnánk vagy kivonnánk a kifejezéseket, a paraméterek minden egyedi kombinációja sorokat és oszlopokat vesz fel vagy von le a mátrixból. A legtöbb publikált irodalom ‘ nem teszi egyértelművé ezt a fontos megkülönböztetést, ami zavartságomhoz vezetett.