QUICK REVIEW

[論文レビュー] Scribbler: Controlling Deep Image Synthesis with Sketch and Color

Patsorn Sangkloy, Jingwan Lu|arXiv (Cornell University)|Dec 2, 2016

Generative Adversarial Networks and Image Synthesis参考文献 44被引用数 26

ひとこと要約

Scribblerは、スパarsなユーザーのスケッチとカラーストロークから、高品質で多様性に富み、現実的な画像を生成するフィードフォワード条件付きGANを提案する。これにより、インタラクティブなリアルタイム編集が可能になる。従来の手法に比べ、敵対的訓練とユーザー主導のスケッチ・カラーマネジメントを組み合わせることで、顔、車、寝室の分野において優れた現実性と制御性を実現するとともに、制御可能な画像色分けの実現も可能にする。

ABSTRACT

Recently, there have been several promising methods to generate realistic imagery from deep convolutional networks. These methods sidestep the traditional computer graphics rendering pipeline and instead generate imagery at the pixel level by learning from large collections of photos (e.g. faces or bedrooms). However, these methods are of limited utility because it is difficult for a user to control what the network produces. In this paper, we propose a deep adversarial image synthesis architecture that is conditioned on sketched boundaries and sparse color strokes to generate realistic cars, bedrooms, or faces. We demonstrate a sketch based image synthesis system which allows users to 'scribble' over the sketch to indicate preferred color for objects. Our network can then generate convincing images that satisfy both the color and the sketch constraints of user. The network is feed-forward which allows users to see the effect of their edits in real time. We compare to recent work on sketch to image synthesis and show that our approach can generate more realistic, more diverse, and more controllable outputs. The architecture is also effective at user-guided colorization of grayscale images.

研究の動機と目的

非専門家ユーザーが直感的なスケッチとカラーマネジメントを用いて現実的な画像を生成できるようにすること。
従来の深層画像生成手法が潜在空間サンプリングに依存するため、制御性に欠けるという問題に対処すること。
ユーザーの編集時に即時のフィードバックが得られる、高速でインタラクティブなシステムを開発すること。
顔の分野にとどまらず、車や寝室といった分野への深層画像生成を拡張し、多様性と現実性を向上させること。
スパarsなカラーストロークを用いた制御可能な画像色分けの有効性を実証すること。

提案手法

入力スケッチとスパarsなカラーストロークを条件とする条件付きGANアーキテクチャを訓練する。
ネットワークは2段階の訓練プロセスを採用する：まずVGG-19特徴を用いてピクセル損失および特徴損失に基づくコンテンツ損失を最適化し、その後敵対的損失によるファインチューニングを行う。
コンテンツ損失は、VGG-19のReLU2-2層を用いて、微細なスケッチのディテールを保持する。
敵対的訓練には、写真再構成に高い重み（約1e8）と、色分けに中程度の重み（約1e5）を設定し、現実性と制御性のバランスを取る。
訓練データに、合成されたものや不完全な手書きスケッチを含む多様なスケッチスタイルを追加して、ロバストネスを向上させる。
生成器はフィードフォワードネットワークであるため、リアルタイム推論とインタラクティブ編集が可能になる。

実験結果

リサーチクエスチョン

RQ1深層生成モデルは、スパarsなスケッチとカラーストロークから、現実的で多様性に富み、制御可能な画像を生成できるか？
RQ2敵対的訓練は、非敵対的ベースラインと比較して、画像品質と現実性をどのように向上させるか？
RQ3モデルは、不完全な人間のスケッチを含む多様なスケッチスタイルに一般化できるか？
RQ4同じアーキテクチャが、スケッチから画像への変換と、グレースケールからカラーへの変換の両方をどの程度サポートできるか？
RQ5敵対的損失の影響を最小限に抑えると同時に、レアなまたは標準でない色の選択をユーザーが行えるように、ユーザーの制御をどのように維持できるか？

主な発見

提案手法は、最適化ベースの推論を用いた従来のスケッチから画像への変換手法と比較して、より高解像度で、多様性に富み、現実性の高い画像を生成する。
フィードフォワードアーキテクチャのおかげで、リアルタイムのユーザーインタラクションが可能となり、スケッチやカラーマネジメントの編集時に即時の視覚的フィードバックが得られる。
モデルは不完全な手書きスケッチや合成スケッチに対しても良好に一般化し、入力のばらつきに対してロバストであることが示された。
システムは、スパarsなカラーストロークがネットワークに意味的な妥当な色割り当てを導くように、制御可能な画像色分けを成功裏に実行した。
改善は見られたが、モデルはしばしばオブジェクト境界を越えて色が漏れ出す（色の漏れ）現象を示し、敵対的損失の制約のため、まれなユーザー指定色の保持に困難を示すことがある。
コンテンツ損失による最適化の後に敵対的ファインチューニングを行う2段階訓練プロセスは、より高い画像品質とより速い収束をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。