Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Paint With Model-based Deep Reinforcement Learning

Zhewei Huang, Wen Heng|arXiv (Cornell University)|Mar 11, 2019
Generative Adversarial Networks and Image Synthesis参考文献 40被引用数 40
ひとこと要約

この研究は、 differentiable neural renderer を介してターゲット画像を連続的に数百のストロークを配置することで描画するモデルベースDRLエージェントを訓練し、MNIST、SVHN、CelebA、ImageNetで人間のストロークデータを用いずに現実的な結果を達成します。

ABSTRACT

We show how to teach machines to paint like human painters, who can use a small number of strokes to create fantastic paintings. By employing a neural renderer in model-based Deep Reinforcement Learning (DRL), our agents learn to determine the position and color of each stroke and make long-term plans to decompose texture-rich images into strokes. Experiments demonstrate that excellent visual effects can be achieved using hundreds of strokes. The training process does not require the experience of human painters or stroke tracking data. The code is available at https://github.com/hzwer/ICCV2019-LearningToPaint.

研究の動機と目的

  • ターゲット画像を描画するために、キャンバス上で画像を再現する一連の順序付けられたストロークに分解できるエージェントを実現する。
  • ペインティングのためのエンドツェンドのモデルベースDRL訓練を可能にする微分可能ニューラルレンダラーを開発する。
  • 連続的なストロークパラメータと長期計画を扱い、質感豊かな画像を再現する。
  • 人間のストロークデータを必要とせず、さまざまな実世界データセットでの描画品質を示す。

提案手法

  • ストロークパラメータを表す連続アクション空間を持つマルコフ決定過程として描画プロセスをモデル化する。
  • 微分可能なニューラルレンダラーが遷移ダイナミクスと報酬を提供する、モデルベースDDPGフレームワークを使用する。
  • ペインティングとターゲット画像の類似性を測るため、WGANベースの識別器を用いて報酬を定義する。
  • 訓練ステップごとに複数のストロークを予測する「Action Bundle」戦略を採用し、それに応じて割引因子を調整する。
  • ストロークを制御点、厚さ、透明度、RGB色を持つ二次ベジェ曲線として表現し、微分可能なニューラルレンダラーで描画する。
  • ピクセルレベルの現実味と全体的な描画品質を向上させるため、識別器・クリティックを用いた対抗学習で訓練する。

実験結果

リサーチクエスチョン

  • RQ1モデルベースDRLエージェントは、ターゲット画像をキャンバス上に再現するために、何百ものストロークに分解することを学習できるのか。
  • RQ2微分可能なニューラルレンダラーとモデルベースの計画を使用することで、モデルフリー手法と比べて描画品質と収束速度が向上するか。
  • RQ3報酬設計(WGANベース vs L2)が生成描画のリアリズムと忠実度に与える影響は何か。
  • RQ4ストローク数とアクションバンドル設定が、複雑さが増すデータセット全体での性能にどう影響するか。
  • RQ5MNIST、SVHN、CelebA、ImageNetなどの多様なデータセットに対して、手法はどれだけ一般化できるか。

主な発見

  • モデルベースDDPGエージェントはモデルフリーのバリアントよりはるかに高い描画忠実度を達成し、CelebAテストでPatchQを用いたDDPGより約5倍小さなell2距離、元のDDPGより約20倍小さい。
  • WGANベースの報酬はよりリッチな質感を生み、テストデータでは純粋なL2報酬より低いell2損失を達成できる。
  • ストローク数を増やすと、質感豊かな画像の描画品質が向上する(例:200対400対1000ストローク)。
  • 1ステップあたり5ストロークのAction Bundleは、学習速度と計画能力の間で有利なトレードオフを提供する。
  • 本手法は複数のストローク設計( Quadratic Bézier curves, straight, triangle, circle)を扱い、数字から自然風景までのデータセットで視覚的に類似した結果を生成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。