[論文レビュー] Synthesizing Programs for Images using Reinforced Adversarial Learning
SPIRAL は、グラフィックスエンジン用の視覚プログラムを生成する対抗学習強化エージェントを訓練し、画像の描画を行い、Wasserstein GAN ディスクリミネータを報酬としてポリシー学習を無監督・エンドツーエンド設定で導く。
Advances in deep generative networks have led to impressive results in recent years. Nevertheless, such models can often waste their capacity on the minutiae of datasets, presumably due to weak inductive biases in their decoders. This is where graphics engines may come in handy since they abstract away low-level details and represent images as high-level programs. Current methods that combine deep learning and renderers are limited by hand-crafted likelihood or distance functions, a need for large amounts of supervision, or difficulties in scaling their inference algorithms to richer datasets. To mitigate these issues, we present SPIRAL, an adversarially trained agent that generates a program which is executed by a graphics engine to interpret and sample images. The goal of this agent is to fool a discriminator network that distinguishes between real and rendered data, trained with a distributed reinforcement learning setup without any supervision. A surprising finding is that using the discriminator's output as a reward signal is the key to allow the agent to make meaningful progress at matching the desired output rendering. To the best of our knowledge, this is the first demonstration of an end-to-end, unsupervised and adversarial inverse graphics agent on challenging real world (MNIST, Omniglot, CelebA) and synthetic 3D datasets.
研究の動機と目的
- ラベル付きのプログラム-画像ペアを用いず、構造化された視覚表現を学習することで、スケーラブルな逆グラフィックスを動機付ける。
- レンダラによって実行されるグラフィックスプログラム断片を出力するポリシーを開発し、画像を生成する。
- 監督なしで強化学習を用い、生成されたレンダを実世界の画像と整合させるために対向訓練を活用する。
- 実世界データと合成データセットの両方に適用可能であることを示し、解釈可能なシーン構造を回復する。
提案手法
- シーケンス a のプログラムコマンドを画像へ変換するブラックボックスレンダリングシミュレータ R を使用する。
- 再帰的ポリシーネットワーク π を用いてコマンド列 a を生成するよう p_a をモデル化する。
- 実画像とレンダリング画像を区別するためのディスクリミネータ D を備えた Wasserstein GAN の目的を採用し、ポリシーへの報酬を提供する。
- 最終報酬としてディスクリミネータのスコアを用い、ポリシー勾配法(A2C)によって π を訓練する。
- 軌跡を生成するアクター、π を更新するポリシー学習者、D を更新するディスクリミネータ学習者を備えた分散学習を実装する。
実験結果
リサーチクエスチョン
- RQ1対向訓練された強化学習エージェントは、監督なしで現実的な画像をレンダリングする解釈可能な視覚プログラムを発見できるか。
- RQ2ディスクリミネータの出力を報酬として用いることは、直接的なピクセル毎の最適化より収束と再構成品質を改善するか。
- RQ3MNIST、Omniglot、CelebA のような実世界データセットおよび合成の3Dシーンデータセットへどの程度拡張適用できるか。
- RQ4ターゲット画像やシーンを条件付けすることが条件付きプログラム合成に与える効果は何か。
主な発見
- SPIRAL エージェントは、MNIST、Omniglot、CelebA、MuJoCo ベースの3Dシーンにまたがって、解釈可能なストロークとシーン記述を生成し、画像を再構成またはサンプルできる。
- ディスクリミネータベースの報酬で学習を行うと、学習が速まり、多くのケースで直接の L2 最小化より最終的なピクセル単位誤差が小さくなる。
- 条件付き生成はターゲット画像を再構成し、基礎となるストローク列を回復し、複雑なシーンを解釈できるが、データセットによって難易度は様々。
- ディスクリミネータ報酬は、L2 報酬が合理的な再構成を生み出さない設定(例:Omniglot と CelebA)で学習を有効にする。
- A distributed IMPALA-inspired setup with asynchronous actors and replay buffer supports scalable training for non-differentiable renderers.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。