[논문 리뷰] Adversarial Message Passing For Graphical Models
이 논문은 구조적 그래픽 모델에서 가능도 없이 베이지안 추론을 수행하기 위한 새로운 프레임워크인 적대적 메시지 전파를 소개한다. 국소 적대망을 사용하여 명시적 가능도 평가를 대체하고, 메시지 전파를 통해 효율적이고 분산된 추론을 가능하게 하며, 계산이 불가능하거나 미분이 불가능한 성분을 가진 복잡한 모델에서도 정확한 사후 분포 근사가 가능하다. 이는 변분 가족에 대한 파rametric 가정 없이 이루어진다.
Bayesian inference on structured models typically relies on the ability to infer posterior distributions of underlying hidden variables. However, inference in implicit models or complex posterior distributions is hard. A popular tool for learning implicit models are generative adversarial networks (GANs) which learn parameters of generators by fooling discriminators. Typically, GANs are considered to be models themselves and are not understood in the context of inference. Current techniques rely on inefficient global discrimination of joint distributions to perform learning, or only consider discriminating a single output variable. We overcome these limitations by treating GANs as a basis for likelihood-free inference in generative models and generalize them to Bayesian posterior inference over factor graphs. We propose local learning rules based on message passing minimizing a global divergence criterion involving cooperating local adversaries used to sidestep explicit likelihood evaluations. This allows us to compose models and yields a unified inference and learning framework for adversarial learning. Our framework treats model specification and inference separately and facilitates richly structured models within the family of Directed Acyclic Graphs, including components such as intractable likelihoods, non-differentiable models, simulators and generally cumbersome models. A key result of our treatment is the insight that Bayesian inference on structured models can be performed only with sampling and discrimination when using nonparametric variational families, without access to explicit distributions. As a side-result, we discuss the link to likelihood maximization. These approaches hold promise to be useful in the toolbox of probabilistic modelers and enrich the gamut of current probabilistic programming applications.
연구 동기 및 목표
- 계산이 불가능하거나 미분이 불가능한 가능도를 가진 복잡하고 구조적인 모델에서의 베이지안 추론 문제를 해결하기 위해.
- 생성 적대망(GANs)을 생성 모델링을 넘어서 추론과 학습을 위한 통합 프레임워크로 일반화하기 위해.
- 요소 그래프에서 협력하는 국소 적대자를 도입하여 전역 분산 기준을 최소화하는 국소적, 분산형 추론을 가능하게 하기 위해.
- 모델 사양과 추론을 분리하여 시뮬레이터, 암묵적 가능도, 비모수적 변분 가족을 자유롭게 조합할 수 있도록 하기 위해.
- 확률 밀도 함수에 명시적인 접근 없이도 사후 추론이 샘플링과 분류만으로 수행될 수 있음을 보여주기 위해.
제안 방법
- 각 요소 그래프의 노드가 자신의 샘플링된 값이 진정한 사후 분포와 일치하는지 평가하기 위해 국소 분류기를 사용하는 국소 메시지 전파 알고리즘을 제안한다.
- 전역 분산 기준, 특히 젠슨-쇼넌 분산(Jensen-Shannon divergence, JSD)을 사용하여 국소 적대자가 근사 사후와 진짜 사후 간의 차이를 최소화하도록 이끈다.
- 노이즈 벡터의 비선형 변환으로 표현된 비모수적 변분 가족을 사용한다: $ q^*(x|\tilde{\text{pa}}(x)) = \int p(\epsilon) f_{vf}(\tilde{\text{pa}}(x), \epsilon) d\epsilon $.
- 샘플링을 위한 유연한 메커니즘을 도입하여 $ x^l = f_{vf}(\tilde{\text{pa}}(x), \epsilon_l) $ 방식으로 샘플을 생성함으로써, $ f_{vf} $의 능력에만 제약을 받는 임의의 분포 형태를 허용한다.
- 적대학습과 가능도 최대화 간의 관계를 수립하여, 적대학습을 통해 암묵적 가능도 최대화가 암묵적으로 수행됨을 보여준다.
- 재생 핵 힐버트 공간에서 분산 최소화를 지원하는 MMD(Maximum Mean Discrepancy) 프레임워크를 적응하여 비모수적 추론을 가능하게 한다.
실험 결과
연구 질문
- RQ1적대학습은 생성 모델링을 넘어서 구조적 그래픽 모델에서 사후 분포 추론을 수행할 수 있는가?
- RQ2명시적 가능도 평가 없이 국소적, 분산형 적대자가 전역 분산 기준을 최소화하는 데 어떻게 사용될 수 있는가?
- RQ3비모수적 변분 가족이 비모수적 형태를 요구하지 않고 복잡한 사후 분포를 얼마나 잘 표현할 수 있는가?
- RQ4적대적 메시지 전파와 확률 모델에서의 암묵적 가능도 최대화 간의 관계는 무엇인가?
- RQ5이 프레임워크는 계산이 불가능한 가능도, 시뮬레이터, 또는 비미분 가능 성분을 가진 모델에서 어떻게 추론을 가능하게 하는가?
주요 결과
- 이 프레임워크는 계산이 불가능하거나 비미분 가능한 성분을 가진 방향성 비순환 그래픽 모델에서, 샘플링과 국소 분류만으로 가능도 없이 추론을 수행할 수 있다.
- 협력하는 국소 적대자들을 통해 전역 수렴하는 추론을 달성하며, 전체 결합 분포의 분류가 필요 없이도 된다.
- 모델 사양과 추론을 분리함으로써, 시뮬레이터와 암묵적 가능도를 포함한 다층적으로 구조화된 모델을 지원한다.
- 노이즈의 비선형 변환으로 정의된 비모수적 변분 가족을 사용함으로써, 사후 분포의 명시적 비모수적 형태가 필요 없어진다.
- 적대학습을 통해 암묵적 가능도 최대화가 암묵적으로 수행되며, GAN 스타일의 학습이 베이지안 추론 목표와 연결된다.
- 실험 결과는 이 방법이 가능도가 계산이 불가능하거나 존재하지 않는 모델에서도 표준 변분 추론과 비교해 정확한 사후 근사가 가능하다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.