Supponiamo di avere una variabile casuale $ X \ sim f (x | \ theta) $ . Se $ \ theta_0 $ fosse il vero parametro, la funzione di verosimiglianza dovrebbe essere massimizzata e la derivata uguale a zero. Questo è il principio alla base dello stimatore di massima verosimiglianza.
A quanto ho capito, le informazioni di Fisher sono definite come
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Quindi, se $ \ theta_0 $ è il vero parametro, $ I (\ theta) = 0 $ . Ma se $ \ theta_0 $ non è il vero parametro, allora avremo una maggiore quantità di informazioni di Fisher.
le mie domande
- Le informazioni di Fisher misurano lerrore ” “di un dato MLE? In altre parole, lesistenza di informazioni positive di Fisher non implica che il mio MLE non possa essere ideale?
- In che modo questa definizione di “informazione” differisce da quella usata da Shannon? Perché la chiamiamo informazione?
Commenti
- Perché lo scrivi $ E_ \ theta $? Laspettativa è superiore ai valori di $ X $ distribuiti come se provenissero dalla distribuzione con il parametro $ \ theta $.
- Anche $ I (\ theta) $ non è zero nel parametro vero.
- La E (S) è zero (cioè: aspettativa della funzione punteggio), ma come scrisse Neil G – le informazioni di pescatore (V (S)) non sono (di solito) zero.
Risposta
Cercando di completare le altre risposte … Che tipo di informazioni sono informazioni di Fisher? Inizia con la funzione loglikelihood $$ \ ell (\ theta) = \ log f (x; \ theta) $$ in funzione di $ \ theta $ per $ \ theta \ in \ Theta $, lo spazio dei parametri. Assumendo alcune condizioni di regolarità che non discutiamo qui, abbiamo $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (scriveremo le derivate rispetto al parametro come punti come qui). La varianza è linformazione di Fisher $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ lultima formula che mostra che è la curvatura (negativa) della funzione di verosimiglianza. Si trova spesso lo stimatore di massima verosimiglianza (mle) di $ \ theta $ risolvendo lequazione di verosimiglianza $ \ dot {\ ell} (\ theta) = 0 $ quando le informazioni di Fisher come varianza del punteggio $ \ dot {\ ell } (\ theta) $ è grande, quindi la soluzione a quellequazione sarà molto sensibile ai dati, dando una speranza per lalta precisione del mle. Ciò è confermato almeno asintoticamente, poiché la varianza asintotica della mle è linverso dellinformazione di Fisher.
Come possiamo interpretarlo? $ \ ell (\ theta) $ sono le informazioni di probabilità sul parametro $ \ theta $ dal campione. Questo può davvero essere interpretato solo in senso relativo, come quando lo usiamo per confrontare le plausibilità di due distinti valori di parametri possibili tramite il test del rapporto di verosimiglianza $ \ ell (\ theta_0) – \ ell (\ theta_1) $. La velocità di variazione della verosimiglianza è la funzione punteggio $ \ dot {\ ell} (\ theta) $ ci dice quanto velocemente cambia la probabilità, e la sua varianza $ I (\ theta) $ quanto varia da campione a campione, a un dato valore di parametro, diciamo $ \ theta_0 $. Lequazione (che è davvero sorprendente!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ ci dice che esiste una relazione (uguaglianza) tra la variabilità nellinformazione ( verosimiglianza) per un dato valore di parametro, $ \ theta_0 $, e la curvatura della funzione di verosimiglianza per quel valore di parametro. Questa è una relazione sorprendente tra la variabilità (varianza) di questa statistica $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ e la variazione attesa di similarità quando si varia il parametro $ \ theta $ in qualche intervallo intorno a $ \ theta_0 $ (per gli stessi dati). Questo è davvero strano, sorprendente e potente!
Allora, qual è la funzione di probabilità? Di solito pensiamo al modello statistico $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ come una famiglia di distribuzioni di probabilità per i dati $ x $, indicizzati dal parametro $ \ theta $ qualche elemento in lo spazio dei parametri $ \ Theta $. Pensiamo che questo modello sia vero se esiste un valore $ \ theta_0 \ in \ Theta $ tale che i dati $ x $ abbiano effettivamente la distribuzione di probabilità $ f (x; \ theta_0) $. Quindi otteniamo un modello statistico incorporando la distribuzione di probabilità che genera dati reali $ f (x; \ theta_0) $ in una famiglia di distribuzioni di probabilità. Ma è chiaro che un tale inserimento può essere fatto in molti modi diversi, e ciascuno di questi incorporamenti sarà un “vero” modello e forniranno funzioni di probabilità diverse. E, senza un tale inserimento, non vi è alcuna funzione di probabilità. Sembra che abbiamo davvero bisogno di aiuto, di alcuni principi su come scegliere con saggezza unincorporazione!
Allora, cosa significa? Significa che la scelta della funzione di verosimiglianza ci dice come ci aspetteremmo che i dati cambiassero, se la verità cambiasse un po . Ma questo non può essere realmente verificato dai dati, poiché i dati forniscono solo informazioni sulla vera funzione del modello $ f (x; \ theta_0) $ che ha effettivamente generato i dati, e non nulla su tutti gli altri elementi nel modello scelto. In questo modo vediamo che la scelta della funzione di verosimiglianza è simile alla scelta di un precedente nellanalisi bayesiana, inietta nellanalisi informazioni non di dati. Vediamo questo in un esempio semplice (alquanto artificiale) e osserviamo leffetto dellincorporazione di $ f (x; \ theta_0) $ in un modello in modi diversi.
Supponiamo che $ X_1, \ dotsc, X_n $ siano iid come $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Quindi, questa è la vera distribuzione che genera dati. Ora, incorporiamolo in un modello in due modi diversi, modello A e modello B. $$ A \ due punti X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ due punti X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ puoi verificare che questo coincida per $ \ mu = 10 $.
Le funzioni di loglikelihood diventano $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
Le funzioni del punteggio : (derivative di loglikelihood): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ e le curvature $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ quindi, le informazioni di Fisher dipendono davvero dallincorporamento. Ora, calcoliamo le informazioni di Fisher al valore reale $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ quindi le informazioni di Fisher sul parametro sono leggermente più grandi nel modello B.
Ciò dimostra che, in un certo senso, le informazioni di Fisher ci dicono quanto velocemente le informazioni dai dati sul parametro sarebbero cambiate se il parametro di riferimento fosse cambiato nel modo postulato dallincorporamento in una famiglia modello . La spiegazione di maggiori informazioni nel modello B è che la nostra famiglia di modelli B postula che se laspettativa fosse aumentata, anche la varianza sarebbe aumentata . In modo che, nel modello B, la varianza del campione conterrà anche informazioni su $ \ mu $, cosa che non farà con il modello A.
Inoltre, questo esempio illustra che abbiamo davvero bisogno di un po di teoria per aiutare noi su come costruire famiglie modello.
Commenti
- ottima spiegazione. Perché dici $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? ‘ è una funzione di $ \ theta $ – non è ‘ è 0 solo se valutata al parametro true $ \ theta_0 $?
- Sì, quello che dici è vero, @idadanny È zero se valutato al valore del parametro vero.
- Grazie ancora @kjetil – quindi solo unaltra domanda: è la sorprendente relazione tra la varianza del punteggio e la curvatura della verosimiglianza vera per ogni $ \ theta $? o solo nelle vicinanze del parametro vero $ \ theta_0 $?
- Di nuovo, quella relazione è vera per il valore del parametro vero. Ma affinché ciò sia di grande aiuto, deve esserci continuità, in modo che sia approssimativamente vero in qualche quartiere, poiché lo useremo al valore stimato $ \ hat {\ theta} $, non solo al vero (sconosciuto) valore.
- quindi, la relazione vale per il vero parametro $ \ theta_0 $, quasi vale per $ \ theta_ {mle} $ poiché assumiamo che ‘ s nelle vicinanze di $ \ theta_0 $, ma per un $ \ theta_1 $ generico non vale, giusto?
Risposta
Pensiamo in termini di funzione di probabilità logaritmica negativa $ \ ell $. Il punteggio negativo è il suo gradiente rispetto al valore del parametro. Al parametro vero, il punteggio è zero. Altrimenti, fornisce la direzione verso il minimo $ \ ell $ (o nel caso di $ \ ell $ non convesso, un punto di sella o minimo o massimo locale).
Linformazione di Fisher misura la curvatura di $ \ ell $ intorno a $ \ theta $ se i dati seguono $ \ theta $. In altre parole, ti dice quanto dimenarsi il parametro influenzerebbe la tua probabilità di log.
Considera che avevi un modello grande con milioni di parametri. E avevi una piccola chiavetta su cui memorizzare il tuo modello. Come dovresti dare la priorità a quanti bit di ciascun parametro memorizzare? La risposta giusta è allocare i bit in base alle informazioni di Fisher (Rissanen ha scritto su questo). Se le informazioni di Fisher di un parametro sono zero, quel parametro non ha importanza.
La chiamiamo “informazione” perché le informazioni di Fisher misurano quanto questo parametro ci dice sui dati.
Un modo colloquiale di pensarci è questo: supponiamo che il I parametri sono alla guida di unauto e i dati si trovano sul sedile posteriore e correggono il conducente. La seccatura dei dati è linformazione di Fisher. Se i dati consentono al conducente di guidare, le informazioni di Fisher sono zero; se i dati apportano costantemente correzioni, sono grandi. In questo senso, le informazioni di Fisher sono la quantità di informazioni che vanno dai dati ai parametri.
Considera cosa succede se rendi il volante più sensibile. Ciò equivale a una riparametrizzazione. In tal caso, i dati non vogliono essere così rumorosi per paura del sovrasterzo della vettura. Questo tipo di riparametrizzazione riduce le informazioni di Fisher.
Risposta
Complementare alla bella risposta di @NeilG (+1) e a rispondere alle tue domande specifiche:
- Direi che conta la “precisione” piuttosto che l “errore” stesso.
Ricorda che lAssia del log -la probabilità valutata con le stime ML è linformazione di Fisher osservata. Gli errori standard stimati sono le radici quadrate degli elementi diagonali dellinverso della matrice di informazione di Fisher osservata.Da ciò linformazione di Fisher è la traccia della matrice di informazione di Fisher. Dato che la matrice informativa di Fisher $ I $ è una matrice di matrice Hermitiana positiva-semidefinita, le voci diagonali $ I_ {j, j} $ di essa sono reali e non negative; come diretta conseguenza traccia $ tr (I) $ deve essere positivo. Ciò significa che puoi avere solo stimatori “non ideali” in base alla tua asserzione. Quindi no, uninformazione di Fisher positiva non è correlata a quanto è ideale il tuo MLE.
- La definizione differisce nel modo in cui interpretiamo la nozione di informazione in entrambi i casi. Detto questo, le due misurazioni sono strettamente correlate.
Linverso dellinformazione di Fisher è la varianza minima di uno stimatore imparziale ( Cramér– Rao legato ). In questo senso la matrice delle informazioni indica quante informazioni sui coefficienti stimati sono contenute nei dati. Al contrario, lentropia di Shannon è stata presa dalla termodinamica. Mette in relazione il contenuto informativo di un particolare valore di una variabile come $ –p · log_2 (p) $ dove $ p $ è la probabilità che la variabile assuma il valore. Entrambe sono misurazioni di quanto sia “informativa” una variabile. Nel primo caso però giudichi questa informazione in termini di precisione mentre nel secondo caso in termini di disordine; lati diversi, stessa moneta! : D
Ricapitolando: Linverso della matrice delle informazioni di Fisher $ I $ valutata ai valori dello stimatore ML è la matrice di covarianza asintotica o approssimativa. Poiché i valori di questo stimatore ML si trovano graficamente in un minimo locale, le informazioni di Fisher mostrano quanto è profondo quel minimo e quanto spazio di manovra hai intorno. Ho trovato questo articolo di Lutwak et al. su Estensioni delle informazioni di Fisher e disuguaglianza di Stam una lettura informativa su questo argomento. Gli articoli di Wikipedia sulla Fisher Information Metric e sulla divergenza Jensen-Shannon sono utili anche per per iniziare.