Não entendo por que converter uma rede bayesiana em um gráfico de fator é bom para a inferência bayesiana?

Minhas perguntas são:

  1. Qual é a vantagem de usar o gráfico de fator no raciocínio Bayesiano?
  2. O que aconteceria se não o usássemos?

Quaisquer exemplos concretos serão apreciados!

Resposta

Vou tentar responder minha própria pergunta.

Mensagem

Uma noção muito importante de gráfico de fator é mensagem , que pode ser entendido como A diz algo sobre B, se a mensagem for passada de A para B.

No contexto do modelo probabilístico, mensagem do fator $ f $ para a variável $ x $ pode ser denotado como $ \ mu_ {f \ to x} $ , que pode ser entendido como $ f $ sabe algo (distribuição de probabilidade, neste caso) e diz a $ x $ .

O fator resume as mensagens

no " fator " contexto, para saber a distribuição de probabilidade de alguma variável, é necessário ter todas as mensagens prontas de seu n fatores vizinhos e, em seguida, resumir todas as mensagens para derivar a distribuição.

Por exemplo, no gráfico a seguir, as arestas, $ x_i $ , são variáveis e nós, $ f_i $ , são fatores conectados por arestas.

Exemplo de gráfico de fator

Para saber $ P (x_4) $ , precisamos saber o $ \ mu_ {f_3 \ para x_4} $ e $ \ mu_ {f_4 \ to x_4} $ e resuma-os juntos.

Estrutura recursiva de mensagens

Então, como saber essas duas mensagens? Por exemplo, $ \ mu_ {f_4 \ to x_4} $ . Pode ser visto como a mensagem depois de resumir duas mensagens, $ \ mu_ {x_5 \ to f_4} $ e $ \ mu_ {x_6 \ a f_4} $ . E $ \ mu_ {x_6 \ to f_4} $ é essencialmente $ \ mu_ {f_6 \ to x_6} $ , que pode ser calculada a partir de algumas outras mensagens.

Esta é a estrutura recursiva das mensagens, as mensagens podem ser definidas por mensagens .

A recursão é um boa coisa, um para melhor compreensão, outro para implementação mais fácil do programa de computador.

Conclusão

Os benefícios dos fatores são:

  1. Fator, que resume mensagens de entrada e produz a mensagem de saída, habilita mensagens que são essenciais para calcular marginal
  2. Fatores habilitam a estrutura recursiva de mensagens de cálculo, tornando a passagem de mensagem ou processo de propagação de crença mais fácil de entender e possivelmente mais fácil de implementar.

Comentários

  • Para ser honesto, acho que este é mais um resumo de como para realizar inferência em gráficos de fator por meio de passagem de mensagem, do que uma resposta ao real pergunta.

Resposta

Uma rede Bayesiana, por definição, é uma coleção de variáveis aleatórias $ \ {X_n : P \ rightarrow \ mathbb {R} \} $ e um gráfico $ G $ tal que a função de probabilidade $ P (X_1, …, X_n) $ fatore como probabilidades condicionais de uma forma determinada por $ G $. Veja http://en.wikipedia.org/wiki/Factor_graph .

Mais importante ainda, os fatores na Rede Bayesiana são da forma $ P (X_i | X_ {j_1}, .., X_ {j_n}) $.

Um gráfico de fator, embora seja mais geral, é o mesmo porque é uma forma gráfica de manter informações sobre a fatoração de $ P (X_1, …, X_n) $ ou qualquer outra função.

A diferença é que quando uma rede bayesiana é convertida em um gráfico de fator, os fatores no gráfico de fator são agrupados. Por exemplo, um fator no gráfico do fator pode ser $ P (X_i | X_ {j_1}, .., X_ {j_n}) P (X_ {j_n}) P (X_ {j_1}) = P (X_i | X_ { j_2}, .., X_ {j_ {n-1}}) $. A rede Bayesiana original armazenou isso como três fatores, mas o gráfico de fatores armazena apenas como um fator. Em geral, o gráfico de fatores de uma rede Bayesiana mantém rastros de menos fatorações do que a rede Bayesiana original fazia.

Resposta

A O gráfico de fatores é apenas outra representação de um modelo bayesiano. Se você tivesse um algoritmo exato para inferência em uma rede Bayesiana específica e outro algoritmo exato para inferência no gráfico de fator correspondente, os dois resultados seriam os mesmos. Os gráficos de fator são uma representação útil para derivar algoritmos de inferência eficientes (exatos e aproximados) explorando a independência condicional entre as variáveis em o modelo, atenuando assim a maldição da dimensionalidade .

Para fazer uma analogia: a transformada de Fourier contém as mesmas informações que a representação de tempo de um sinal, mas algumas tarefas são mais fáceis realizados no domínio da frequência, e alguns são mais fáceis de realizar no domínio do tempo. No mesmo sentido, um gráfico de fator é apenas uma reformulação das mesmas informações (o modelo probabilístico), que é útil para derivar algoritmos inteligentes, mas não " adiciona " qualquer coisa.

Para ser mais específico, suponha que você esteja interessado em derivar o marginal $ p (x_i) $ de alguma quantidade em um modelo, que requer integração sobre todas as outras variáveis:

$$ p (x_i) = \ int p (x_1, x_2, \ ldots, x_i, \ ldots, x_N) dx_1x_2 \ ldots x_ {i-1} x_ {i + 1} \ ldots x_N $$

Em um alto modelo dimensional, é uma integração sobre um espaço de alta dimensão, que é muito difícil de calcular. (Este problema de marginalização / integração é o que torna a inferência em grandes dimensões difícil / intratável. Uma abordagem é encontrar maneiras inteligentes de avaliar essa integral de forma eficiente, que é o que Markov Chain Monte Os métodos de Carlo (MCMC) sim. Esses são conhecidos por sofrerem de tempos de computação notoriamente longos.)

Sem entrar em muitos detalhes, um gráfico de fator codifica o fato de que muitas dessas variáveis são condicionalmente independentes umas das outras . Isso permite substituir a integração de alta dimensão acima por uma série de problemas de integração de dimensão muito inferior , ou seja, os cálculos de as diferentes mensagens. Explorando a estrutura do problema dessa forma, a inferência se torna viável. Este é o principal benefício de formular inferência em termos de gráficos de fator.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *