QUICK REVIEW

[論文レビュー] Conjugate-Computation Variational Inference : Converting Variational Inference in Non-Conjugate Models to Inferences in Conjugate Models

Mohammad Emtiyaz Khan, Lin Wu|arXiv (Cornell University)|Mar 13, 2017

Gaussian Processes and Bayesian Inference参考文献 27被引用数 31

ひとこと要約

この論文では、非共役項に対して確率的勾配更新を適用し、共役項に対しては効率的な共役計算を組み合わせる、新しい変分推論アルゴリズムである共役計算変分推論（CVI）を提案する。平均パラメータ空間における確率的ミラー降下による更新の定式化により、各勾配ステップを共役計算で実装可能となり、共役構造を無視する手法に比べて著しく高速な収束を実現する。ガウス過程分類や行列分解を含む複数のモデルでその有効性が実証された。

ABSTRACT

Variational inference is computationally challenging in models that contain both conjugate and non-conjugate terms. Methods specifically designed for conjugate models, even though computationally efficient, find it difficult to deal with non-conjugate terms. On the other hand, stochastic-gradient methods can handle the non-conjugate terms but they usually ignore the conjugate structure of the model which might result in slow convergence. In this paper, we propose a new algorithm called Conjugate-computation Variational Inference (CVI) which brings the best of the two worlds together -- it uses conjugate computations for the conjugate terms and employs stochastic gradients for the rest. We derive this algorithm by using a stochastic mirror-descent method in the mean-parameter space, and then expressing each gradient step as a variational inference in a conjugate model. We demonstrate our algorithm's applicability to a large class of models and establish its convergence. Our experimental results show that our method converges much faster than the methods that ignore the conjugate structure of the model.

研究の動機と目的

共役項と非共役項を併せ持つモデルにおける変分推論の計算非効率性を解消すること。
共役構造を無視する（収束が遅い）か、非共役項に対して複雑な近似を必要とする既存手法の限界を克服すること。
共役モデルの計算効率と非共役部への確率的勾配法の柔軟性を統合すること。
共役設定では標準的なVMPに還元され、収束保証を維持する汎用推論アルゴリズムの開発すること。

提案手法

平均パラメータ空間における確率的ミラー降下法を提案し、勾配ステップを共役計算で実装可能にする。
各勾配更新を共役モデルにおける変分推論問題として表現し、閉形式の事後分布更新を活用する。
モデルを共役部と非共役部に分割し、メッセージ-passingを用いて条件付き共役モデルへ拡張する。
平均場近似を用い、共役構造が保持されかつ活用されるように更新を定式化する。
確率的勾配ステップを共役指数型分布族におけるベイズ推論に変換することで、アルゴリズムを導出する。
弱い正則性条件の下で収束を確立し、CVIがVMPやSVIといった既存手法とつながることを示す。

実験結果

リサーチクエスチョン

RQ1共役モデルの計算効率を保ちつつ、非共役尤度に対処できる変分推論アルゴリズムを設計できるか？
RQ2確率的勾配更新をどのように再定式化すれば、共役計算を活用して収束速度を向上させられるか？
RQ3提案手法を、共役部と非共役部を併せ持つモデル、さらには条件付き共役構造を含むモデルへ一般化できるか？
RQ4確率的勾配更新に共役計算を統合することで、ブラックボックス確率的手法に比べて収束が速くなるか？
RQ5非共役設定における提案アルゴリズムの理論的収束挙動はいかなるものか？

主な発見

CVIは、共役構造を無視する手法に比べて著しく高速に収束することが、ガウス過程分類や多クラスロジスティック回帰の実験で示された。
a7aデータセットでは、CVIは0.95秒で収束し、S&K Alg2（0.74秒）とS&K FG（1.19秒）を上回り、対応する対数尤度は同等であった。
ガンマ要因分解モデルでは、Knowles法の210.03秒からCVIでは50.91秒に短縮され、対応する対数尤度は競争力を持った。
MNISTにおけるガンマ行列因子分解では、CVIは1692.64秒でテスト損失0.000119を達成し、ADAM（1776.83秒で0.000125）を上回った。
コロンがんやCovtype-scaleといったすべてのベンチマークデータセットにおいて、CVIは最小限の時間オーバーヘッドでほぼ最適な性能を達成した。
すべてのデータセットで、CVIは正確な事後分布に非常に近い解に収束し、最高性能を示すベースラインと比較して対数尤度の差が0.01未満であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。