Sono un principiante che cerca di presentarmi alla stima della massima verosimiglianza (MLE) e posso coglierne alcune del materiale in modo adeguato, come cercare picchi nelle funzioni di verosimiglianza, avvicinarsi al limite di Cramer-Rao e invertire la Fisher Information Matrix per derivare la matrice di covarianza e le stime della varianza. Ironia della sorte, ho più problemi a cercare di individuare precisamente ciò che le colonne, le righe e le voci della matrice di Fisher dovrebbero rappresentare e definendone la struttura. Ho scremato una o due dozzine di riferimenti nellultimo anno circa (più una ricerca su CrossValidated) e devo ancora vedere alcun esempio con i valori effettivi inseriti nelle formule, sebbene la loro discussione su altri aspetti della matrice sia di solito approfondita.
Cercherò di spiegare in dettaglio per evitare la sovrapposizione di argomenti più avanzati su altri thread. La maggior parte della mia confusione sembra derivare da questo: lintegrale nellequazione di matrice ha una derivata del secondo ordine e il risultato della funzione di verosimiglianza sul divisore e due derivate per un singolo parametro sul dividendo, di solito con due pedici come i e j. (Vedi questa voce di Wikipedia e questa per esempi). Sembra che ci siano sempre esattamente due pedici, il che implica una matrice bidimensionale e mi fa porre le domande correlate di seguito:
-
Se avessi solo un trattamento e un parametro, sembra per implicare una matrice unidimensionale. In caso affermativo, a cosa si riferirebbero gli indici di matrice i e j? Avrei bisogno di fare un prodotto incrociato della singola dimensione a se stessa per ricavare il dividendo nellequazione della matrice di Fisher?
-
Come cambierebbero le strutture di colonne e righe se ne avessi due trattamenti e necessari per stimare un singolo parametro? Ciò implicherebbe una matrice 2D?
-
La situazione inversa, in cui sono presenti un trattamento e due parametri (ad esempio scala e forma), farebbe la differenza per la domanda n. 2? Immagino che non sarebbe pratico per alcune distribuzioni, se uno dei parametri era necessario per derivare laltro nella funzione di verosimiglianza.
-
Come modifico la struttura della matrice e calcolare le voci se ho due o più trattamenti più due o più parametri? Questo sembra implicare una matrice 3D o superiore, nel qual caso avremmo bisogno di più pedici oltre a i e j. Devo ancora vedere alcuna formula in tal senso nei testi, articoli di giornale e tutorial che ho sfogliato fino ad oggi però (Ho un elenco di referenze, se necessario). Questo viene fatto comunemente nelle MLE del mondo reale?
-
Possiamo espandere la matrice per includere distribuzioni separate o anche famiglie di distribuzione, insieme ai loro parametri? In che modo questo influenzerebbe la struttura della matrice?
-
Le voci della matrice possono essere costituite da una combinazione di calcoli sia sui valori di probabilità che su quelli osservati, se questi ultimi sono disponibili? La formula Fisher Metric in https://en.wikipedia.org/wiki/Fisher_information_metric#Definition sembra sostituire i PDF con le probabilità. Ciò costituirebbe mescolare le informazioni osservate con le informazioni di Fisher? Questa parte della domanda può portare ad altri argomenti come le sottili differenze tra le informazioni osservate e quelle di Fisher che sono probabilmente trattate meglio altrove. Mi chiedo solo se i due tipi di voci siano mai mescolati nella stessa matrice. Presumo che sarebbero quasi sempre tenuti separati.
Mi rendo conto che le risposte che sto cercando probabilmente non hanno cervello; Ovviamente sto sbagliando qualche semplice concetto sottostante. Una volta superato questo ostacolo, dovrei essere in grado di inserire rapidamente alcune funzioni di probabilità nelle formule di Fisher, restituire alcune matrici di covarianza ed esercitarmi a selezionare alcuni MLE; normalmente sarebbe il difficile parte, ma sono bloccato su questo compito di base. Unimmagine vale più di mille parole per così dire: le risposte alle domande di cui sopra sarebbero probabilmente immediatamente chiare, se vedessi esempi con valori effettivi inseriti. Non resta che spiegare come popolare la matrice dalla solita formula utilizzando solo due pedici o, in alternativa, eventuali modifiche alla formula per accogliere più trattamenti e parametri. Sarebbero utili anche collegamenti a tali esempi o esercizi. Grazie in anticipo 🙂
Commenti
- +1 perché hai davvero provato a rispondere da solo ma come consiglio amichevole: vai avanti e modifica questo in una domanda più piccola. In tal senso, non è possibile valutare numericamente una funzione di costo di probabilità logaritmica, ottenere la sua hessiana e vedere di persona come appaiono le derivate parziali? (Posso farlo per te se vuoi.) Inizia con una variabile continua prima non una discreta. (Penso che confondi anche ciò che fanno più parametri; aggiungono solo colonne alla tua matrice di progettazione, non dimensioni complete.)
- Grazie per il consiglio – ‘ proverò a modificarlo un paio di volte stasera e domani per sminuzzarlo. ‘ sarei interessato a vedere il processo per derivare la matrice con un parametro vs due vs più parametri e trattamenti. Questo ‘ è il vero punto critico per me; Non riesco ‘ a immaginare come gestire questi tre scenari in modo diverso, data la versione della formula di Fisher con due pedici. Grazie 🙂
- Il modo più succinto per rispondere a questo sarebbe screenshot / link di matrici Fisher effettive con 1) un parametro 2) due parametri & 3) multipli parametri con trattamenti multipli, purché le quantità in ogni colonna / riga siano chiaramente etichettate. O un semplice ” Con più parametri & trattamenti, avremmo X # di colonne e Y # di righe. Con un parametro, i valori andrebbero qui; X. ecc ” Le formule / procedure dettagliate non sono necessarie, a meno che non siano necessarie modifiche per adeguare i parametri aggiuntivi & trattamenti. Posso & dovrei farlo da solo; Ho solo bisogno di esempi finiti con cui confrontare la mia struttura.
- Sembra piuttosto scoraggiante rispondere. Penso che potrebbe essere più facile fornire un esempio & mostra dove ‘ sei bloccato nella derivazione o confuso sullinterpretazione. Ma, per cominciare, cosa significa ‘ un ” trattamento “? Unosservazione? Un trattamento sperimentale?
- @Scortchi La risposta ‘ è probabilmente insolitamente semplice. Luso di esattamente 2 pedici i & j nella formula è lunico punto in cui ‘ sono bloccato nella derivazione; Non riesco ‘ a comprendere come questo possa adattarsi a parametri singoli o parametri / trattamenti multipli. La visualizzazione delle effettive matrici informative Fisher finite con colonne chiaramente etichettate & righe risponderebbe; semplicemente non sono ‘ molti in letteratura. ‘ d quindi ” Aha, questo è il motivo per cui 2 pedici possono gestire 3 parametri o solo 1, ecc. verrebbe posizionato nella matrice. ” ‘ è solo la struttura del prodotto finito I ‘ m dopo, niente di più.
Risposta
Linformazione di Fisher è una matrice quadrata simmetrica con un numero di righe / colonne pari al numero di parametri che “stai stimando. Ricorda che” è una matrice di covarianza dei punteggi, & cè “un punteggio per ogni parametro o laspettativa di il negativo di un Hessian, con un gradiente per ogni parametro. Quando vuoi considerare diversi trattamenti sperimentali, rappresenti i loro effetti aggiungendo più parametri al modello, cioè più righe / colonne (piuttosto che più dimensioni — una matrice ha due dimensioni per definizione. Quando stai valutando g solo un singolo parametro, le informazioni di Fisher sono solo una matrice uno per uno (uno scalare) — la varianza o il valore atteso del negativo della derivata seconda di , il punteggio.
Per un semplice modello di regressione lineare di $ Y $ su $ x $ con $ n $ osservazioni
$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $
dove $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, ci sono tre parametri da stimare, lintercetta $ \ beta_0 $, la pendenza $ \ beta_1 $, & la varianza dellerrore $ \ sigma ^ 2 $; le informazioni di Fisher sono
$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $
dove $ \ ell (\ cdot) $ è la funzione di verosimiglianza dei parametri. (Tieni presente che $ x $ potrebbe essere una variabile fittizia che indica un trattamento particolare.)
Commenti
- Perfetto – it ‘ è esattamente ciò di cui avevo bisogno. ‘ ci rifletterò durante la notte e vedrò se ho bisogno di chiarimenti. Non posso ‘ individuarne qualcuna in questo momento, ma questa risposta è già rivolta tutti i vari scenari che ho menzionato sopra, in un colpo solo. Grazie
- La struttura dellesempio di @Scortchi ‘ mostra chiaramente come la formula di Fisher a cui mi collegavo necessita solo di due pedici di matrice – i e j – per contenere qualsiasi numero di parametri e valori. Ogni non diagonale nella matrice superiore ha esattamente due termini nel dividendo; invece di aggiungere o sottrarre termini da ogni dividendo, ogni combinazione univoca di parametri aggiunge o sottrae righe e colonne dalla matrice. La maggior parte della letteratura pubblicata non ‘ rende chiara questa importante distinzione, che ha portato alla mia confusione.