QUICK REVIEW

[論文レビュー] Quantum Inspired Training for Boltzmann Machines

Nathan Wiebe, Ashish Kapoor|arXiv (Cornell University)|Jul 9, 2015

Generative Adversarial Networks and Image Synthesis参考文献 9被引用数 21

ひとこと要約

この論文は、深層ボルツマンマシン（DBMs）の量子学習手法にインspiredされた古典的アルゴリズムであるインストルメンタルリジェクションサンプリング（IRS）を紹介する。変分近似と、α=2のダイバージェンスを最小化する最適なインストルメンタル分布を用いたリジェクションサンプリングを組み合わせることで、低次のコントラストダイバージェンスよりもより正確な勾配を得られ、深さに伴うスケーリングも良好であり、並列化可能な誤差低減が可能となり、量子ハードウェアが不要な高精度で効率的なDBM学習の実用的道筋を提供する。

ABSTRACT

We present an efficient classical algorithm for training deep Boltzmann machines (DBMs) that uses rejection sampling in concert with variational approximations to estimate the gradients of the training objective function. Our algorithm is inspired by a recent quantum algorithm for training DBMs. We obtain rigorous bounds on the errors in the approximate gradients; in turn, we find that choosing the instrumental distribution to minimize the alpha=2 divergence with the Gibbs state minimizes the asymptotic algorithmic complexity. Our rejection sampling approach can yield more accurate gradients than low-order contrastive divergence training and the costs incurred in finding increasingly accurate gradients can be easily parallelized. Finally our algorithm can train full Boltzmann machines and scales more favorably with the number of layers in a DBM than greedy contrastive divergence training.

研究の動機と目的

最近提案された量子アルゴリズムの理論的利点を保ちつつ、深層ボルツマンマシン（DBMs）を学習するための古典的アナログを開発すること。
コントラストダイバージェンス学習の主な制限、例えばエッジに内在する非対称性や、並列化可能な精度向上の欠如を克服すること。
完全なボルツマンマシンおよび深層構造に対して、低次のCDより優れた勾配推定を実現する、厳密で効率的かつスケーラブルな方法を提供すること。
リジェクションサンプリングにおける漸近的アルゴリズム的複雑度と勾配誤差を最小化する最適なインストルメンタル分布を同定すること。
量子にインspiredされたサンプリングの古典的実装が、深層生成モデルの学習において実用的利点をもたらすかどうかを示すこと。

提案手法

本手法は、ボルツマンマシンの真のギブス分布を近似するために、変分的インストルメンタル分布 Q を用いたリジェクションサンプリングを採用する。
インストルメンタル分布は、ギブス状態との α=2 ダイバージェンスを最小化するように選ばれ、これによりサンプリングプロセスの漸近的アルゴリズム的複雑度が最適化される。
2つの主要な近似が用いられる：平均場分布と α=2 ダイバージェンスを最小化する分布であり、これらは凸結合（γQ_MF + (1−γ)Q_α=2）によって組み合わされ、高次元空間における性能劣化を緩和する。
2つの独立したリジェクションサンプリングループが使用される：1つはモデル分布（近似された結合分布からのサンプリング）に、もう1つはデータ分布（可視ユニットが与えられた条件付き分布からのサンプリング）にそれぞれ対応する。
最大尤度目的関数の勾配は、両方の分布からの受理サンプルにおける可視ユニットおよび隠れユニットの活性化の経験的平均を計算することで推定される。
本手法は、コントラストダイバージェンスとは異なり、近似の次数を増加させることなく、サンプリングプロセスの並列化をサポートする。

実験結果

リサーチクエスチョン

RQ1古典的アルゴリズムは、最近提案されたDBM学習のための量子アルゴリズムの理論的利点を再現できるか？
RQ2リジェクションサンプリングにおけるDBM学習の最適なインストルメンタル分布は、漸近的複雑度と勾配誤差を最小化するものか？
RQ3平均場と α=2 ダイバージェンスに基づく近似を組み合わせることで、高次元モデルにおけるサンプリング効率と勾配精度はどのように向上するか？
RQ4リジェクションサンプリングアプローチは、コントラストダイバージェンスとは異なり、勾配精度の向上を並列化可能にできるか？
RQ5グリーディなコントラストダイバージェンスと比較して、本手法はDBMのレイヤー数の増加に伴い、より良好にスケーリングするか？

主な発見

ギブス状態との α=2 ダイバージェンスを最小化するインストルメンタル分布は、最小の漸近的アルゴリズム的複雑度をもたらし、最適なサンプリングの理論的基盤を提供する。
κ_A ≈ 1 の小さな値では、ハイブリッドインストルメンタル分布（γ=0.5）は平均場近似と同等の性能を示すが、κ_A ≈ 211 の大きな値では、両方の個別近似を約45%優回し、確率質量の適切な処理を実現する。
IRS手法は、低次のコントラストダイバージェンス学習よりもより正確な勾配を生成し、より良いモデル最適化を可能にする。
IRSにおけるより高い勾配精度を達成するコストは、効率的に並列化可能であるが、コントラストダイバージェンスとは異なり、近似の次数を増加させない限り、固定された1次近似に制限される。
グリーディなコントラストダイバージェンスと比較して、IRSアルゴリズムはDBMのレイヤー数の増加に伴い、より良好にスケーリングするため、より深いアーキテクチャに適している。
本手法はDBMsに限定されず、潜在変数を有する一般の無向グラフィカルモデルにも適用可能であり、その適用範囲を広げている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。