QUICK REVIEW

[論文レビュー] Implicit Generation and Generalization in Energy-Based Models

Yilun Du, Igor Mordatch|arXiv (Cornell University)|Mar 20, 2019

Anomaly Detection Techniques and Applications参考文献 65被引用数 112

ひとこと要約

tldr: 本論文は連続的なエネルギー基モデル（EBMs）をMCMCサンプリングで訓練し、高品質な画像を生成することを示し、モードカバレッジとロバスト性を実証し、EBMsのOOD検出、敵対的頑健性、継続学習、軌跡予測への適用可能性を示している。

ABSTRACT

Energy based models (EBMs) are appealing due to their generality and simplicity in likelihood modeling, but have been traditionally difficult to train. We present techniques to scale MCMC based EBM training on continuous neural networks, and we show its success on the high-dimensional data domains of ImageNet32x32, ImageNet128x128, CIFAR-10, and robotic hand trajectories, achieving better samples than other likelihood models and nearing the performance of contemporary GAN approaches, while covering all modes of the data. We highlight some unique capabilities of implicit generation such as compositionality and corrupt image reconstruction and inpainting. Finally, we show that EBMs are useful models across a wide variety of tasks, achieving state-of-the-art out-of-distribution classification, adversarially robust classification, state-of-the-art continual online class learning, and coherent long term predicted trajectory rollouts.

研究の動機と目的

高次元データ上でのEBMsのスケーラブルな訓練技法の動機付けと開発。
混合を改善するためのMCMC（ Langevinダイナミクス）とリプレイバッファによる暗黙的サンプル生成を実証。
組成性、デコラップション、インペインティングなど、EBMの独自特性を示す。
画像生成、頑健性、OOD検出、軌跡モデリング、継続オンライン学習へのEBMsの適用を評価。

提案手法

データを p_theta(x) ∝ exp(-E_theta(x)) でモデル化するニューラルネットワークパラメートライズドエネルギー関数 E_theta(x) を訓練する。
ランジェヴィン動力学を用いて暗黙分布 q_theta からサンプルを得る。ノイズまたはサンプルリプレイバッファから初期化。
データでエネルギーを下げ、モデルサンプルでエネルギーを上げる勾配を用いて、正則化された結合目的関数を持つ機械学習目的関数を最適化。
サンプリングを安定化し分割関数の可積分性を確保するため、スペクトル正規化とL2正則化を適用。
混合を改善し Langevin 更新の多様な初期化を提供するため、サンプルリプレイバッファを維持。
データサンプルと生成されたネガティブを用いたトレーニングループを採用し、Adam最適化子で theta を更新。

実験結果

リサーチクエスチョン

RQ1勾配ベースのMCMCで訓練された連続EBMsは高次元データへスケールし、競争力のあるサンプルを生成できるか。
RQ2暗黙サンプリングを用いたとき、EBMsはモードカバレージ、デコリプションインペインティング、組成的生成を示すか。
RQ3敵対的摂動に対して頑健で、OOD検出と継続学習が可能か。
RQ4EBMsは複雑な軌跡をモデル化し、オンラインの継続学習タスクを支援できるか。
RQ5潜在因子間で組成性とゼロショット横断一般化をどの程度EBMsは示せるか。

主な発見

モデル	Inception*	FID
PixelCNN (Van Oord et al., 2016)	4.60	65.93
PixelIQN (Ostrovski et al., 2018)	5.29	49.46
EBM (single)	6.02	40.58
DCGAN (Radford et al., 2016)	6.40	37.11
WGAN + GP (Gulrajani et al., 2017)	6.50	36.40
EBM (10 historical ensemble)	6.78	38.20
SNGAN (Miyato et al., 2018)	8.22	21.70
CIFAR-10 Conditional – Improved GAN	8.09	-
EBM (single) – CIFAR-10 Conditional	8.30	37.90
Spectral Normalization GAN	8.59	25.50
PixelCNN (ImageNet 32x32 Conditional)	8.33	33.27
PixelIQN (ImageNet 32x32 Conditional)	10.18	22.99
EBM (single) – ImageNet 32x32 Conditional	18.22	14.31
ACGAN (Odena et al., 2017)	28.5	-
EBM* (single)	28.6	43.70
SNGAN	36.8	27.62

Langevinベースの暗黙生成を用いるEBMsはCIFAR-10とImageNet32x32で高品質なサンプルを生み出し、GANの性能に近づき、いくつかの尤度モデルよりも良いモードカバレージを示す。
EBMsはデコリプションとインペインティング機能を示し、意味的モードカバレージとクラス横断の暗黙サンプリングを示す。
条件付きEBMsは敵対的頑健性を達成し、敵対的訓練なしでL_inftyおよびL2攻撃に対して一部のベースラインモデルを上回る。
EBMsによるOOD検出は複数の確率モデルを上回り、複数のOODデータセットでAUROCが高い。
EBMsはFCベースラインより低いFrechet距離で多段階の軌跡予測を可能にし、Split MNISTで強い継続学習性能を示す。
独立したEBMsを足し合わせることで共通サンプリングと潜在因子間のゼロショット横断一般化を可能にし、潜在因子の組成性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。