QUICK REVIEW

[論文レビュー] Auto-painter: Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks

Yifan Liu, Zengchang Qin|arXiv (Cornell University)|May 4, 2017

Generative Adversarial Networks and Image Synthesis参考文献 21被引用数 69

ひとこと要約

本論文は、U-Net ジェネレーターと PatchGAN 判別器を備えた cGAN ベースのモデル Auto-painter を提案し、スケッチを漫画風画像へ着色する。追加のピクセル、特徴量、総変動損失およびユーザー嗜好に合わせた色指定のオプションを提供する。

ABSTRACT

Recently, realistic image generation using deep neural networks has become a hot topic in machine learning and computer vision. Images can be generated at the pixel level by learning from a large collection of images. Learning to generate colorful cartoon images from black-and-white sketches is not only an interesting research problem, but also a potential application in digital entertainment. In this paper, we investigate the sketch-to-image synthesis problem by using conditional generative adversarial networks (cGAN). We propose the auto-painter model which can automatically generate compatible colors for a sketch. The new model is not only capable of painting hand-draw sketch with proper colors, but also allowing users to indicate preferred colors. Experimental results on two sketch datasets show that the auto-painter performs better that existing image-to-image methods.

研究の動機と目的

デジタルエンターテインメントのために、白黒スケッチを自動的にカラーの漫画画像へ変換することを動機づける。
条件付き GAN を用いたコントロール可能なスケッチから画像への生成フレームワークを開発する。
複数項の損失関数を通じて高品質な色を生成しつつ、スケッチのエッジを保持する。
生成される漫画スタイルをカスタマイズするためのユーザー主導の色制御を可能にする。

提案手法

入力スケッチを条件とする U-Net ジェネレーターと PatchGAN 判別器を用いた条件付き GAN を使用する。
敵対的損失、L1 ピクセル損失、VGG ベースの特徴損失、総変動損失を組み合わせた多項損失を用いる（L = wp Lp + wf Lf + wG LG + wtv Ltv）。
デコーディング時に低レベルのスケッチ情報を保持するため、U-Net のスキップ接続戦略を取り入れる。
高解像度 (512x512) の漫画スケッチ-画像ペアで訓練し、監督のために画像からスケッチを生成するために XDoG を使用する。
着色を導くカラーブロックをスケッチに導入することで任意のカラー制御を許可する。
pix2pix のベースラインと比較して評価し、Lf および Ltv の影響を評価するアブレーション研究を実施する。

実験結果

リサーチクエスチョン

RQ1高解像度の白黒の漫画スケッチをエッジを保持しつつカラーの漫画画像へ信頼して変換できるか？
RQ2標準の pix2pix と比べて、ピクセル損失、特徴損失、総変動損失といった多項損失は色の忠実度やスタイルの多様性を向上させるか？
RQ3インタラクティブなカラー制御を組み込むことで、一貫性を犠牲にすることなく生成された漫画スタイルのユーザー主導のバリエーションを可能にするか？

主な発見

Method	n_like	n_dislike	pop_j	variance(pop_ij)	mean(pop_ij)
pix2pix [10]	249	1147	-1.524	1.319	-1.549
tv loss	304	698	-0.829	1.519	-0.675
feature loss	687	219	1.140	1.110	1.227
auto-painter	960	136	1.948	0.888	1.873

Auto-painter は 55 名のボランティアを対象とした主観的な like/dislike 評価で pix2pix ベースラインを上回る。
アブレーションでは、総変動損失を除くと背景の崩れ、特徴損失を除くと細部がぼやけ、すべての損失を組み合わせると最も人気が高く分散が最も小さい。
全ての損失項を含む完全な Auto-painter は、テスト済みの構成の中で最も高い人気スコアと最も安定した出力を達成。
カラーコントロールブロックは領域特異的なカラー伝播を可能にし、ユーザー指定のカラーヒントが合成された漫画出力に影響を与える。
二つのデータセット（Minions と Japanimation）での訓練は、スケッチから高品質な着色漫画を生成するモデルの能力を示している。
本システムは画像1枚あたり約1秒程度でカラー漫画を生成でき、インタラクティブな編集ワークフローを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。