[論文レビュー] Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow
バリアショナル判別器ボトルネック(VDB)を導入し、情報ボトルネックを介して識別器を正則化することで敵対的学習を安定化させ、模倣学習、逆強化学習、およびGANでの性能を向上させる。
Adversarial learning methods have been proposed for a wide range of applications, but the training of adversarial models can be notoriously unstable. Effectively balancing the performance of the generator and discriminator is critical, since a discriminator that achieves very high accuracy will produce relatively uninformative gradients. In this work, we propose a simple and general technique to constrain information flow in the discriminator by means of an information bottleneck. By enforcing a constraint on the mutual information between the observations and the discriminator's internal representation, we can effectively modulate the discriminator's accuracy and maintain useful and informative gradients. We demonstrate that our proposed variational discriminator bottleneck (VDB) leads to significant improvements across three distinct application areas for adversarial learning algorithms. Our primary evaluation studies the applicability of the VDB to imitation learning of dynamic continuous control skills, such as running. We show that our method can learn such skills directly from \emph{raw} video demonstrations, substantially outperforming prior adversarial imitation learning methods. The VDB can also be combined with adversarial inverse reinforcement learning to learn parsimonious reward functions that can be transferred and re-optimized in new settings. Finally, we demonstrate that VDB can train GANs more effectively for image generation, improving upon a number of prior stabilization methods.
研究の動機と目的
- 識別器の情報フローを情報ボトルネックで制約することにより、敵対的学習を動機づけ安定化する。
- 情報勾配を有意義に保つように識別器の正確さを調整する、実用的な変分境界ベースの手法(VDB)を開発する。
- モーション模倣(モーションキャプチャ/動画)、対抗的 IRL、GAN ベースの画像生成という三つの領域で改善を示す。
提案手法
- 入力 x を確率的潜在変数 z ~ E(z|x) に写像するエンコーダ E を導入する。
- 事前分布 r(z) を用いた KL ベースの上限を介して I(X;Z) ≤ Ic の相互情報制約を課す。
- 情報予算を適応的に強制する双対変数 β を用いたラグランジュ法を最適化する(β は双対勾配降下法で更新される)。
- 識別器 D は x ではなく E(z|x) からのサンプル z を分類する。バイナリの実データ/偽データにはシグモイドを用いて D(z) を適用する。
- z の期待値を近似するため、エンコーダの平均 μE(x) で D を評価する簡略化された生成器目的関数を用いる。
- この VDB フレームワークを GAIL(VAIL)、VAIRL に適用し、動画からの模倣(一部はピクセルベースのデモ)へ拡張する。
実験結果
リサーチクエスチョン
- RQ1識別器内の情報フローを情報ボトルネックで制約することは、敵対的学習における安定性と勾配品質を改善するか。
- RQ2VDB はデモンストレーションからの模倣学習(動画を含む)および対抗的 IRL の設定で性能を向上させるか。
- RQ3VDB は標準的な安定化手法を超えた GAN ベースの画像生成に有益か。
- RQ4β の適応最適化は学習ダイナミクスと最終性能にどのように影響するか。
- RQ5VDB を VAIRL および関連する対抗的 IRL 定式化へ適用した場合の利得は何か。
主な発見
| Method | Backflip(ラジアン) | Cartwheel(ラジアン) | Dance(ラジアン) | Run(ラジアン) | Spinkick(ラジアン) |
|---|---|---|---|---|---|
| BC | 3.01 | 2.88 | 2.93 | 2.63 | 2.88 |
| Merel et al., 2017 | 1.33±0.03 | 1.47±0.12 | 2.61±0.30 | 0.52±0.04 | 1.82±0.35 |
| GAIL | 0.74±0.15 | 0.84±0.05 | 1.31±0.16 | 0.17±0.03 | 1.07±0.03 |
| GAIL - noise | 0.42±0.02 | 0.92±0.07 | 0.96±0.08 | 0.21±0.05 | 0.95±0.14 |
| GAIL - noise z | 0.67±0.12 | 0.72±0.04 | 1.14±0.08 | 0.14±0.03 | 0.64±0.09 |
| GAIL - GP | 0.62±0.09 | 0.69±0.05 | 0.80±0.32 | 0.12±0.02 | 0.64±0.04 |
| VAIL (ours) | 0.36±0.13 | 0.40±0.08 | 0.40±0.21 | 0.13±0.01 | 0.34±0.05 |
| VAIL - GP (ours) | 0.46±0.17 | 0.31±0.02 | 0.15±0.01 | 0.10±0.01 | 0.31±0.02 |
| Peng et al., 2018 | 0.26 | 0.21 | 0.20 | 0.14 | 0.19 |
- VDB は識別器の決定境界を滑らかにし、有意義な勾配を提供して勾配消失を防ぎ、学習を改善する。
- VAIL(VDB を用いた対抗模倣学習)は、GAIL の派生や BC を上回り、モーションキャプチャおよび動画デモンストレーションからの模倣を複数のスキルで改善する。
- VAIL 系列および VAIRL- GP 系列は、ベースラインおよび AIRL 派生と比較して転移/報酬学習性能で競争力がある、または上回る。
- 動画からのモーション模倣で、双対勾配降下法による適応 β は情報制約を効果的に強制し、全体的な最良の性能をもたらす。
- 画像生成の分野で、VDB ベースの GANs(VGAN)は、従来の安定化手法と比較して安定性と性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。