Skip to main content
QUICK REVIEW

[論文レビュー] Neural Painters: A learned differentiable constraint for generating brushstroke paintings

Reiichiro Nakano|arXiv (Cornell University)|Apr 17, 2019
Generative Adversarial Networks and Image Synthesis参考文献 24被引用数 30
ひとこと要約

この論文では、実際のペインティングプログラムの微分可能シミュレーションであるNeural Paintersを紹介しており、筆圧生成におけるエンドツーエンドの誤差逆伝播を可能にしている。VAEやGANを用いてNeural Painterを訓練することで、画像再構成の収束を加速させ、画像Netクラスの可視化や、筆圧の特徴がコンテンツ損失最適化を通じて自然に芸術的スタイルを規定する内在的スタイル転送といった、新たな応用が可能になる。

ABSTRACT

We explore neural painters, a generative model for brushstrokes learned from a real non-differentiable and non-deterministic painting program. We show that when training an agent to "paint" images using brushstrokes, using a differentiable neural painter leads to much faster convergence. We propose a method for encouraging this agent to follow human-like strokes when reconstructing digits. We also explore the use of a neural painter as a differentiable image parameterization. By directly optimizing brushstrokes to activate neurons in a pre-trained convolutional network, we can directly visualize ImageNet categories and generate "ideal" paintings of each class. Finally, we present a new concept called intrinsic style transfer. By minimizing only the content loss from neural style transfer, we allow the artistic medium, in this case, brushstrokes, to naturally dictate the resulting style.

研究の動機と目的

  • 微分不可能で非決定的なペイントプログラムの微分可能シミュレーションを開発し、筆圧ベースの画像生成におけるエンドツーエンド学習を可能にすること。
  • 強化学習に代わって筆圧の最適化を微分可能にすることで、画像再構成タスクにおける収束を加速すること。
  • 事前学習済みImageNet分類器の内部表現を、直接的に筆圧を最適化してクラス固有の活性化を最大化することで可視化すること。
  • 芸術的スタイルが明示的なスタイル損失なしに、筆圧プリミティブから自然に生じる「内在的スタイル転送」を導入すること。
  • ニューラルペインターを微分可能な画像パラメータ化として用い、画像編集や生成タスクのための新規画像生成を探索すること。

提案手法

  • 実際のMyPaintプログラム出力から筆圧の潜在空間を学習するため、変分自己オートエンコーダ(VAE)を訓練する。
  • 実際の筆圧と生成された筆圧を敵対的に区別することで、リアルな筆圧を生成するGANベースのニューラルペインターを訓練する。
  • ニューラルペインターを微分可能な画像パラメータ化として用い、特定の目的を最適化するために筆圧パラメータを経由した誤差逆伝播を可能にする。
  • ニューラルスタイル転送においてコンテンツ損失を最小化することで、筆圧の特徴が自然に結果の芸術的スタイルを規定するように筆圧を最適化する。
  • 数字再構成中に人間の筆の動きに類似したパターンをとるよう、前処理を適用する。
  • 複数の64x64キャンバスをつなぎ合わせることで、GPUメモリの制限を超えて高解像度出力を可能にする。

実験結果

リサーチクエスチョン

  • RQ1実際の微分不可能なペイントデータで学習した微分可能なニューラルペインターは、筆圧ベースの画像生成における学習収束を顕著に改善できるか?
  • RQ2ニューラルペインターを用いて、筆圧を直接最適化することで、事前学習済みImageNet分類器の内部表現を可視化できるか?
  • RQ3コンテンツ損失のみを最小化することで、内在的スタイル転送を達成できるか?その場合、筆圧の媒体が自然に結果の芸術的スタイルを定義するか?
  • RQ4ピクセルベースの最適化と比較して、ニューラルペインターを微分可能な画像パラメータ化として用いる利点は何か?
  • RQ5グレースケールや固定サイズなどの異なる筆圧制約は、生成される芸術的出力の多様性と品質にどのように影響するか?

主な発見

  • ニューラルペインター手法は、強化学習を用いない敵対的訓練フレームワークを採用しながらも、SPIRALと同等のCelebA再構成性能を達成し、強化学習に比べて収束がはるかに速いことを示した。
  • ニューラルペインターを微分可能な画像パラメータ化として用いることで、事前学習済みネットワークの活性化を最大化するように筆圧を直接最適化でき、パンダ、ミツバチ、バイオリンといったImageNetクラスの多様な可視化が得られた。
  • コンテンツ損失のみを最小化することで達成された内在的スタイル転送は、筆圧プリミティブから自然に芸術的スタイルが生じるペインター的レンダリングを生み出し、グレースケールなどの制約を適用した際の視覚的差が明確に現れた。
  • GPUメモリの制限を超えて、複数の64x64キャンバスをつなぎ合わせることで高解像度画像生成が可能になり、ベース解像度を超えたスケーラブルな出力が実現した。
  • 前処理により、数字再構成におけるエージェントのヒトに類似した筆の動きの学習能力が向上し、視覚的に信頼性の高い出力が得られた。
  • 筆の大きさ、圧力、色といった芸術的媒体の制約が、出力スタイルを自然に形作ることを示した。これは、スプラッタペイントや3D彫刻などの他の芸術的メディアへの応用可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。