Nu înțeleg de ce convertirea unei rețele bayesiene într-un grafic factorial este bună pentru inferența bayesiană?
Întrebările mele sunt:
- Care este avantajul utilizării graficului factorial în raționamentul bayesian?
- Ce s-ar întâmpla dacă nu îl vom folosi?
Orice exemple concrete vor fi apreciate!
Răspuns
Voi încerca să răspund propria mea întrebare.
Mesaj
O noțiune foarte importantă de grafic factor este mesaj , care poate fi înțeles ca A spune ceva despre B, dacă mesajul este trecut de la A la B.
În contextul modelului probabilistic, mesajul de la factorul $ f $ la variabila $ x $ poate fi notată ca $ \ mu_ {f \ to x} $ , care poate fi înțeles ca $ f $ știe ceva (distribuția probabilității în acest caz) și îi spune $ x $ .
Factorul rezumă mesajele
În factorul " " context, pentru a cunoaște distribuția probabilității unei variabile, trebuie să aveți toate mesajele gata de la n factori vecini și apoi rezumați toate mesajele pentru a obține distribuția.
De exemplu, în graficul următor, marginile, $ x_i $ , sunt variabilele și nodurile, $ f_i $ , sunt factori conectați prin margini.
Pentru a cunoaște $ P (x_4) $ , trebuie să cunoaștem $ \ mu_ {f_3 \ to x_4} $ și $ \ mu_ {f_4 \ to x_4} $ și rezumați-le împreună.
Structura recursivă a mesajelor
Atunci cum să știi aceste două mesaje? De exemplu, $ \ mu_ {f_4 \ to x_4} $ . Poate fi văzut ca mesaj după rezumarea a două mesaje, $ \ mu_ {x_5 \ to f_4} $ și $ \ mu_ {x_6 \ to f_4} $ . Și $ \ mu_ {x_6 \ to f_4} $ este în esență $ \ mu_ {f_6 \ to x_6} $ , care poate fi calculată din alte mesaje.
Aceasta este structura recursivă a mesajelor, mesajele pot fi definite prin mesaje .
Recursiunea este o un lucru bun, unul pentru o mai bună înțelegere, unul pentru o implementare mai ușoară a programului de computer.
Concluzie
Beneficiile factorilor sunt:
- Factor, care rezumă mesajele de intrare și generează mesajul de ieșire, activează mesajele esențiale pentru calcularea marginală. să înțeleg și posibil mai ușor de implementat.
Comentarii
- Pentru a fi sincer, consider că acesta este mai degrabă un rezumat al modului în care pentru a efectua inferențe în graficele de factori prin transmiterea mesajului, decât un răspuns la real întrebare.
Răspuns
O rețea bayesiană, prin definiție, este o colecție de variabile aleatorii $ \ {X_n : P \ rightarrow \ mathbb {R} \} $ și un grafic $ G $ astfel încât funcția de probabilitate $ P (X_1, …, X_n) $ să fie factori ca probabilități condiționate într-un mod determinat de $ G $. A se vedea http://en.wikipedia.org/wiki/Factor_graph .
Cel mai important, factorii din Rețeaua Bayesiană sunt de forma $ P (X_i | X_ {j_1}, .., X_ {j_n}) $.
Un grafic factorial, chiar dacă este mai general, este același în sensul că este un mod grafic de a păstra informațiile despre factorizarea $ P (X_1, …, X_n) $ sau orice altă funcție.
Diferența este că atunci când o rețea bayesiană este convertită într-un grafic factorial, factorii din graficul factorilor sunt grupați. De exemplu, un factor din graficul factorilor poate fi $ P (X_i | X_ {j_1}, .., X_ {j_n}) P (X_ {j_n}) P (X_ {j_1}) = P (X_i | X_ { j_2}, .., X_ {j_ {n-1}}) $. Rețeaua Bayesiană originală a stocat acest lucru ca trei factori, dar graficul factorial îl stochează doar ca un singur factor. În general, graficul factorial al unei rețele bayesiene păstrează urmări cu mai puține factorizări decât rețeaua Bayesiană originală.
Răspuns
A graficul factorial este doar o altă reprezentare a unui model bayesian. Dacă ați avea un algoritm exact pentru inferență într-o anumită rețea bayesiană și un alt algoritm exact pentru inferență în graficul factorului corespunzător, cele două rezultate ar fi aceleași. Graficele factoriale se întâmplă să fie o reprezentare utilă pentru obținerea algoritmilor de inferență eficienți (exacți și aproximativi) prin exploatarea independenței condiționate între variabile în modelul, atenuând astfel blestemul dimensionalității .
Pentru a da o analogie: transformata Fourier conține exact aceleași informații ca reprezentarea în timp a unui semnal, totuși unele sarcini sunt mai ușoare realizate în domeniul frecvenței, iar unele sunt mai ușor realizate în domeniul timpului. În același sens, un grafic factorial este doar o reformulare a aceleiași informații (modelul probabilistic), care este util pentru obținerea algoritmilor inteligenți, dar nu este într-adevăr " adaugă " orice.
Pentru a fi mai specific, presupuneți că sunteți interesat să obțineți marginal $ p (x_i) $ a unei cantități într-un model, care necesită integrarea peste toate celelalte variabile:
$$ p (x_i) = \ int p (x_1, x_2, \ ldots, x_i, \ ldots, x_N) dx_1x_2 \ ldots x_ {i-1} x_ {i + 1} \ ldots x_N $$
În mare -model dimensional, aceasta este o integrare într-un spațiu cu dimensiuni ridicate, care este foarte greu de calculat. (Această problemă de marginalizare / integrare este ceea ce face inferența în dimensiuni mari dificilă / intratabilă. O abordare este de a găsi modalități inteligente de evaluare eficientă a acestei integrale, ceea ce este ceea ce lanțul Markov Monte Metodele Carlo (MCMC). Se știe că aceștia suferă de timpi de calcul notoriu lungi.)
Fără a intra în prea multe detalii, un grafic factorial codifică faptul că multe dintre aceste variabile sunt independente condiționat una de cealaltă. . Aceasta permite înlocuirea integrării de înaltă dimensiune de mai sus cu o serie de probleme de integrare cu dimensiuni mult mai mici , și anume, calculele diferitele mesaje. Prin exploatarea structurii problemei în acest mod, inferența devine fezabilă. Acesta este principalul avantaj al formulării inferenței în termeni de grafice factoriale.