No entiendo por qué convertir una red bayesiana en un gráfico de factores es bueno para la inferencia bayesiana.
Mis preguntas son:
- ¿Cuál es el beneficio de usar el gráfico de factores en el razonamiento bayesiano?
- ¿Qué pasaría si no lo usamos?
¡Cualquier ejemplo concreto será apreciado!
Responder
Intentaré responder mi propia pregunta.
Mensaje
Una noción muy importante de gráfico de factores es mensaje , que puede entenderse como A dice algo sobre B, si el mensaje se pasa de A a B.
En el contexto del modelo probabilístico, el mensaje del factor $ f $ a la variable $ x $ se puede denotar como $ \ mu_ {f \ to x} $ , que puede entenderse como $ f $ sabe algo (distribución de probabilidad en este caso) y le dice que $ x $ .
El factor resume los mensajes
En el » factor » contexto, para conocer la distribución de probabilidad de alguna variable, es necesario tener todos los mensajes listos desde su n factores vecinos y luego resumir todos los mensajes para derivar la distribución.
Por ejemplo, en el siguiente gráfico, los bordes, $ x_i $ , son las variables y los nodos, $ f_i $ , son factores conectados por bordes.
Para conocer $ P (x_4) $ , necesitamos conocer el $ \ mu_ {f_3 \ to x_4} $ y $ \ mu_ {f_4 \ to x_4} $ y resumirlos juntos.
Estructura recursiva de mensajes
Entonces, ¿cómo saber estos dos mensajes? Por ejemplo, $ \ mu_ {f_4 \ to x_4} $ . Puede verse como el mensaje después de resumir dos mensajes, $ \ mu_ {x_5 \ to f_4} $ y $ \ mu_ {x_6 \ to f_4} $ . Y $ \ mu_ {x_6 \ to f_4} $ es esencialmente $ \ mu_ {f_6 \ to x_6} $ , que se puede calcular a partir de algunos otros mensajes.
Esta es la estructura recursiva de los mensajes, los mensajes se pueden definir mediante mensajes .
La recursividad es una algo bueno, uno para una mejor comprensión, uno para una implementación más fácil del programa de computadora.
Conclusión
El beneficio de los factores son:
- Factor, que resume los mensajes de entrada y da salida al mensaje de salida, habilita los mensajes que son esenciales para calcular el margen
- Los factores habilitan la estructura recursiva de los mensajes de cálculo, lo que facilita el proceso de transmisión de mensajes o propagación de creencias entender, y posiblemente más fácil de implementar.
Comentarios
- Para ser honesto, creo que esto es más un resumen de cómo realizar inferencias en gráficos de factores mediante el paso de mensajes, que una respuesta a la pregunta.
Respuesta
Una red bayesiana, por definición, es una colección de variables aleatorias $ \ {X_n : P \ rightarrow \ mathbb {R} \} $ y un gráfico $ G $ tal que la función de probabilidad $ P (X_1, …, X_n) $ factoriza como probabilidades condicionales de una manera determinada por $ G $. Consulte http://en.wikipedia.org/wiki/Factor_graph .
Lo más importante es que los factores en la red bayesiana son de la forma $ P (X_i | X_ {j_1}, .., X_ {j_n}) $.
Un gráfico de factores, aunque es más general, es el mismo en el sentido de que es una forma gráfica de mantener información sobre la factorización de $ P (X_1, …, X_n) $ o cualquier otra función.
La diferencia es que cuando una red bayesiana se convierte en un gráfico de factores, los factores en el gráfico de factores se agrupan. Por ejemplo, un factor en el gráfico de factores puede ser $ P (X_i | X_ {j_1}, .., X_ {j_n}) P (X_ {j_n}) P (X_ {j_1}) = P (X_i | X_ { j_2}, .., X_ {j_ {n-1}}) $. La red bayesiana original almacenó esto como tres factores pero el gráfico de factores lo almacena solo como un factor. En general, el gráfico de factores de una red bayesiana mantiene un seguimiento de menos factorizaciones que la red bayesiana original.
Respuesta
A El gráfico de factores es solo otra representación de un modelo bayesiano. Si tuviera un algoritmo exacto para la inferencia en una red bayesiana en particular, y otro algoritmo exacto para la inferencia en el gráfico de factores correspondiente, los dos resultados serían los mismos. Los gráficos de factores resultan ser una representación útil para derivar algoritmos de inferencia eficientes (exactos y aproximados) aprovechando la independencia condicional entre variables en el modelo, mitigando así la maldición de la dimensionalidad .
Para dar una analogía: la transformada de Fourier contiene exactamente la misma información que la representación del tiempo de una señal, pero algunas tareas son más fáciles logrados en el dominio de la frecuencia, y algunos se logran más fácilmente en el dominio del tiempo. En el mismo sentido, un gráfico de factores es simplemente una reformulación de la misma información (el modelo probabilístico), que es útil para derivar algoritmos inteligentes, pero «en realidad no » agrega » cualquier cosa.
Para ser más específico, asuma que está interesado en derivar el marginal $ p (x_i) $ de alguna cantidad en un modelo, que requiere la integración sobre todas las demás variables:
$$ p (x_i) = \ int p (x_1, x_2, \ ldots, x_i, \ ldots, x_N) dx_1x_2 \ ldots x_ {i-1} x_ {i + 1} \ ldots x_N $$
En un alto -modelo dimensional, esta es una integración en un espacio de alta dimensión, que es muy difícil de calcular. (Este problema de marginación / integración es lo que hace que la inferencia en dimensiones altas sea difícil / intratable. Un enfoque es encontrar formas inteligentes de evaluar esta integral de manera eficiente, que es lo que Markov chain Monte Los métodos de Carlo (MCMC) lo hacen. Se sabe que estos sufren de tiempos de cálculo notoriamente largos).
Sin entrar en demasiados detalles, un gráfico de factores codifica el hecho de que muchas de estas variables son condicionalmente independientes unas de otras. . Esto permite reemplazar la integración de alta dimensión anterior por una serie de problemas de integración de una dimensión mucho menor , es decir, los cálculos de los diferentes mensajes. Al explotar la estructura del problema de esta manera, la inferencia se vuelve factible. Este es el beneficio principal de formular inferencias en términos de gráficos de factores.