Antag, at vi har en tilfældig variabel $ X \ sim f (x | \ theta) $ . Hvis $ \ theta_0 $ var den sande parameter, skulle sandsynlighedsfunktionen maksimeres og afledningen lig med nul. Dette er det grundlæggende princip bag estimatoren for maksimal sandsynlighed.

Som jeg forstår det, er Fisher-oplysninger defineret som

$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$

Så hvis $ \ theta_0 $ er den sande parameter, $ I (\ theta) = 0 $ . Men hvis det $ \ theta_0 $ ikke er den sande parameter, vil vi have en større mængde Fisher-information.

mine spørgsmål

  1. Måler Fisher-oplysninger fejlen ” “af en given MLE? Med andre ord betyder ikke eksistensen af positive Fisher-oplysninger, at min MLE ikke kan være ideel?
  2. Hvordan adskiller denne definition af “information” sig fra den, der bruges af Shannon? Hvorfor kalder vi det information?

Kommentarer

  • Hvorfor skriver du det $ E_ \ theta $? Forventningen er over værdier på $ X $ fordelt som om de kom fra din distribution med parameter $ \ theta $.
  • Også $ I (\ theta) $ er ikke nul ved den sande parameter.
  • E (S) er nul (dvs. forventning om score-funktionen), men som Neil G skrev – fisher information (V (S)) er ikke (normalt) nul.

Svar

Forsøger at supplere med de andre svar … Hvilken information er Fisher-information? Start med loglikelihood-funktionen $$ \ ell (\ theta) = \ log f (x; \ theta) $$ som en funktion af $ \ theta $ for $ \ theta \ i \ Theta $, parameterrummet. Under forudsætning af nogle regelmæssighedsbetingelser, som vi ikke diskuterer her, har vi $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (vi skriver derivater med hensyn til parameteren som prikker som her). Variansen er Fisher-informationen $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ den sidste formel, der viser, at det er (negativ) krumning af loglikelihood-funktionen. Man finder ofte den maksimale sandsynlighedsestimator (mle) på $ \ theta $ ved at løse sandsynlighedsligningen $ \ dot {\ ell} (\ theta) = 0 $ når Fisher-informationen som variansen af scoren $ \ dot {\ ell } (\ theta) $ er stor, så vil løsningen på denne ligning være meget følsom over for dataene, hvilket giver et håb om høj nøjagtighed af mle. Dette bekræftes i det mindste asymptotisk, idet den asymptotiske varians af mle er det omvendte af Fisher-information.

Hvordan kan vi fortolke dette? $ \ ell (\ theta) $ er sandsynlighedsoplysningerne om parameteren $ \ theta $ fra prøven. Dette kan virkelig kun fortolkes i relativ forstand, som når vi bruger det til at sammenligne sandsynligheden for to forskellige mulige parameterværdier via sandsynlighedsforholdet test $ \ ell (\ theta_0) – \ ell (\ theta_1) $. Ændringshastigheden for loglikelihood er score-funktionen $ \ dot {\ ell} (\ theta) $ fortæller os, hvor hurtigt sandsynligheden ændres, og dens varians $ I (\ theta) $ hvor meget dette varierer fra prøve til prøve, ved en given parameterværdi, sig $ \ theta_0 $. Ligningen (som virkelig er overraskende!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ fortæller os, at der er et forhold (ligestilling) mellem variationen i informationen ( sandsynlighed) for en given parameterværdi, $ \ theta_0 $, og krumningen af sandsynlighedsfunktionen for denne parameterværdi. Dette er en overraskende sammenhæng mellem variabiliteten (variansen) af denne statistik $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ og den forventede ændring i ligesom når vi varierer parameteren $ \ theta $ i noget interval omkring $ \ theta_0 $ (for de samme data). Dette er virkelig både mærkeligt, overraskende og stærkt!

Så hvad er sandsynlighedsfunktionen? Vi tænker normalt på den statistiske model $ \ {f (x; \ theta), \ theta \ i \ Theta \} $ som en familie af sandsynlighedsfordelinger for data $ x $, indekseret af parameteren $ \ theta $ noget element i parameterrummet $ \ Theta $. Vi betragter denne model som sand, hvis der findes en værdi $ \ theta_0 \ i \ Theta $, således at data $ x $ faktisk har sandsynlighedsfordelingen $ f (x; \ theta_0) $. Så vi får en statistisk model ved at indlejre den ægte datagenererende sandsynlighedsfordeling $ f (x; \ theta_0) $ i en familie af sandsynlighedsfordelinger. Men det er klart, at en sådan indlejring kan udføres på mange forskellige måder, og hver sådan indlejring vil være en “ægte” model, og de vil give forskellige sandsynlighedsfunktioner. Og uden en sådan indlejring er der ingen sandsynlighedsfunktion. Det ser ud til, at vi virkelig har brug for hjælp, nogle principper for, hvordan vi vælger en indlejring klogt!

Så hvad betyder det? Det betyder, at valg af sandsynlighedsfunktion fortæller os, hvordan vi ville forvente, at dataene ændrede sig, hvis sandheden ændrede sig lidt. Men dette kan ikke rigtig verificeres af dataene, da dataene kun giver oplysninger om den sande modelfunktion $ f (x; \ theta_0) $, som faktisk genererede dataene, og ikke noget om alle de andre elementer i den valgte model. På denne måde ser vi, at valg af sandsynlighedsfunktion svarer til valget af en tidligere i Bayesian-analyse, det injicerer ikke-datainformation i analysen. Lad os se på dette i et simpelt (noget kunstigt) eksempel og se på effekten af at indlejre $ f (x; \ theta_0) $ i en model på forskellige måder.

Lad os antage, at $ X_1, \ dotsc, X_n $ er id som $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Så det er den ægte, datagenererende distribution. Lad os nu integrere dette i en model på to forskellige måder, model A og model B. $$ A \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ i \ mathbb {R} \\ B \ kolon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ kan du kontrollere, at dette falder sammen med $ \ mu = 10 $.

Loglikelihood-funktionerne bliver $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$

Score-funktionerne : (loglikelihood-derivater): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ og krumninger $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ så Fisher-oplysningerne afhænger virkelig af indlejringen. Nu beregner vi Fisher-oplysningerne til den sande værdi $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ så Fisher-informationen om parameteren er noget større i model B.

Dette illustrerer, at noget fornuft fortæller Fisher-informationen os, hvor hurtigt oplysningerne fra dataene om parameteren ville have ændret sig hvis den styrende parameter blev ændret på den måde postuleret af indlejringen i en modelfamilie . Forklaringen på højere information i model B er, at vores modelfamilie B postulerer , at hvis forventningen ville være steget, ville også variansen være steget . For at prøvevariansen under model B også vil have information om $ \ mu $, som den ikke vil gøre under model A.

Også dette eksempel illustrerer, at vi virkelig har brug for en teori for at hjælpe os i, hvordan man bygger modelfamilier.

Kommentarer

  • god forklaring. Hvorfor siger du $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? det ‘ en funktion af $ \ theta $ – er ikke ‘ t det kun, når det vurderes til den sande parameter $ \ theta_0 $?
  • Ja, hvad du siger er sandt, @idadanny Det er nul, når det vurderes til den sande parameterværdi.
  • Tak igen @kjetil – så bare et spørgsmål mere: er det overraskende forhold mellem variansen af score og krumning af sandsynligheden sand for hver $ \ theta $? eller kun i nærheden af den sande parameter $ \ theta_0 $?
  • Igen er dette forhold sandt for den sande parameterværdi. Men for at det skal være til stor hjælp, skal der være kontinuitet, så det er omtrent sandt i et eller andet kvarter, da vi vil bruge det til den anslåede værdi $ \ hat {\ theta} $, ikke kun til den sande (ukendte) værdi.
  • så forholdet gælder for den sande parameter $ \ theta_0 $, det holder næsten for $ \ theta_ {mle} $, da vi antager, at det ‘ s i nærheden af $ \ theta_0 $, men for en generel $ \ theta_1 $ holder det ikke, ikke?

Svar

Lad os tænke i form af den negative log-sandsynlighedsfunktion $ \ ell $. Den negative score er dens gradient i forhold til parameterværdien. Ved den sande parameter er score nul. Ellers det giver retningen mod minimum $ \ ell $ (eller i tilfælde af ikke-konveks $ \ ell $, et sadelpunkt eller lokalt minimum eller maksimum).

Fisher-informationen måler krumningen på $ \ ell $ omkring $ \ theta $, hvis dataene følger $ \ theta $. Med andre ord fortæller det dig, hvor meget der vrikker parameteren påvirker din log-sandsynlighed.

Overvej, at du havde en stor model med millioner af parametre. Og du havde et lille tommelfinger-drev, hvor du kunne gemme din model. Hvordan skal du prioritere, hvor mange bits af hver parameter, der skal gemmes? Det rigtige svar er at tildele bits i henhold til Fisher-oplysningerne (Rissanen skrev om dette). Hvis Fisher-informationen for en parameter er nul, betyder det ikke noget.

Vi kalder det “information”, fordi Fisher-informationen måler, hvor meget denne parameter fortæller os om dataene.


En dagligdags måde at tænke på det er denne: Antag, at parametre kører bil, og data er på bagsædet og korrigerer føreren. Det irriterende ved dataene er Fisher-informationen. Hvis dataene lader føreren køre, er Fisher-informationen nul; hvis data konstant foretager korrektioner, er de store. I denne forstand er Fisher-informationen mængden af information, der går fra dataene til parametrene.

Overvej hvad der sker, hvis du gør rattet mere følsom. Dette svarer til en reparametrisering. I så fald vil dataene ikke være så høje af frygt for, at bilen styres. Denne form for reparametriering mindsker Fisher-informationen.

Svar

Supplerende til @NeilGs pæne svar (+1) og til adresser dine specifikke spørgsmål:

  1. Jeg vil sige, at det tæller “præcisionen” snarere end selve “fejlen”.

Husk at loggenes hessian -sandsynligheden evalueret ved ML-estimaterne er den observerede Fisher-information. De estimerede standardfejl er kvadratrødderne til de diagonale elementer i det omvendte af den observerede Fisher-informationsmatrix. Stammende herfra er Fisher-informationen spor af Fisher-informationsmatrixen. I betragtning af at Fisher Information-matrixen $ I $ er en hermitisk positiv-semidefinit matrixmatrix, så er de diagonale poster $ I_ {j, j} $ af den reelle og ikke-negative; som en direkte konsekvens sporer den $ tr (I) $ skal være positiv. Det betyder, at du kun kan have “ikke-ideelle” estimatorer i henhold til din påstand. Så nej, en positiv Fisher-information er ikke relateret til hvor ideel er din MLE.

  1. Definitionen adskiller sig i den måde, vi fortolker opfattelsen af information i begge tilfælde. Når det er sagt, er de to målinger tæt beslægtede.

Det omvendte af Fisher-information er minimumsvariansen for en upartisk estimator ( Cramér– Rao bundet ). I den forstand indikerer informationsmatrixen, hvor meget information om de estimerede koefficienter, der er indeholdt i dataene. Tværtimod blev Shannon-entropien taget fra termodynamikken. Det relaterer informationsindholdet af en bestemt værdi af en variabel som $ –p · log_2 (p) $ hvor $ p $ er sandsynligheden for, at variablen får værdien. Begge er målinger af, hvor “informativ” en variabel er. I det første tilfælde vurderer du dog disse oplysninger med hensyn til præcision, mens du i det andet tilfælde er udtryk for uorden; forskellige sider, samme mønt! : D

Til oversigt: Det omvendte af Fisher-informationsmatricen $ I $ evalueret ved ML-estimatorværdierne er den asymptotiske eller omtrentlige kovariansmatrix. Da disse ML-estimatorværdier findes grafisk i et lokalt minimum, viser Fisher-informationen, hvor dybt det minimum er, og hvem der er meget vridningsrum, du har omkring det. Jeg fandt dette papir af Lutwak et al. på Udvidelser af Fisher-information og Stams ulighed en informativ læsning om denne sag. Wikipedia-artiklerne om Fisher Information Metric og om Divergerende Jensen – Shannon er også gode til kom i gang.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *