QUICK REVIEW

[論文レビュー] SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis

Wengling Chen, James Hays|arXiv (Cornell University)|Jan 9, 2018

Generative Adversarial Networks and Image Synthesis参考文献 47被引用数 39

ひとこと要約

SketchyGANは、50種類のオブジェクトカテゴリにわたる人間が描いたスケッチから、現実的で多様な画像を生成する、GANベースでエンドツーエンドで学習可能なモデルを提案する。特徴の流れを向上させるために、新しいマスク付き残差ユニット（MRU）ブロックを導入し、合成エッジマップを用いたデータ拡張技術を採用することで、先行手法よりも高いインセプションスコアとより現実的な品質を達成した。

ABSTRACT

Synthesizing realistic images from human drawn sketches is a challenging problem in computer graphics and vision. Existing approaches either need exact edge maps, or rely on retrieval of existing photographs. In this work, we propose a novel Generative Adversarial Network (GAN) approach that synthesizes plausible images from 50 categories including motorcycles, horses and couches. We demonstrate a data augmentation technique for sketches which is fully automatic, and we show that the augmented data is helpful to our task. We introduce a new network building block suitable for both the generator and discriminator which improves the information flow by injecting the input image at multiple scales. Compared to state-of-the-art image translation methods, our approach generates more realistic images and achieves significantly higher Inception Scores.

研究の動機と目的

画像検索に依存せずに、人間が描いたスケッチから現実的で多様な画像を合成する深層学習モデルの開発。
ペairedスケッチ・フォトの訓練データの不足に対処するため、合成エッジマップを用いたデータ拡張技術を導入。
スケール間の情報伝達を向上させる新しいネットワークアーキテクチャ（MRU）を設計することで、画像合成品質の向上。
入力スケッチへの忠実性とフォトリアルな品質の両立を図り、自然な画像品質を得るために必要な変更を許容。
50種類の多様なオブジェクトカテゴリにわたるスケッチから画像への変換において、最先端の性能を示すこと。

提案手法

生成器がスケッチを入力として受け取り、現実的な画像を生成する条件付きGANフレームワークを採用。ディスクリミネータは、本物の画像と生成された画像を区別する。
内部マスクを用いて情報の流れを動的に制御し、入力スケッチからのマルチスケール特徴を注入する、新しいマスク付き残差ユニット（MRU）を導入。
訓練過程において、エッジマップから画像への変換からスケッチから画像への変換へと段階的に移行するように、エッジマップペアとスケッチペアの比率を調整。
画像品質と多様性の向上のため、GAN損失とACGAN損失を追加の損失関数として用いる。
230万枚のFlickr画像から50のカテゴリにわたるエッジマップを合成し、スケッチデータセットにペアドエッジマップとフォトを追加することで、データ拡張を実施。
敵対的損失、知覚的損失、アイデンティティ損失を組み合わせて、エンドツーエンドで訓練することで、構造的一致性と現実性を維持。

実験結果

リサーチクエスチョン

RQ1画像検索に依存せずに、GANベースのモデルがスケッチから多様で現実的な画像を生成できるか？
RQ2限られたペアドスケッチ・フォトデータを効果的に拡張することで、スケッチから画像への変換性能を向上させられるか？
RQ3マスク付き残差ユニット（MRU）のような新しいネットワークアーキテクチャが、スケッチから画像への翻訳における特徴の流れと合成品質を向上させるか？
RQ4生成出力における入力スケッチへの忠実性とフォトリアルな品質の両立を、どの程度達成できるか？
RQ5提案手法は、既存のGANベースおよび検索ベースのスケッチから画像への変換手法と比較して、定量的および定性的にどの程度優れているか？

主な発見

SketchyGANは、最先端の画像変換手法よりも顕著に高いインセプションスコアを達成しており、画像品質と多様性の向上を示している。
パrameter数が同等の状態でも、MRUベースのモデルはResNetおよびCRNの変種を上回り、視覚的品質とインセプションスコアの両面で優れている。
人間による評価では、pix2pixの変種よりもSketchyGANのほうが現実的であり、リアルさの比較において高い選択率を示した。
リtrievalベースラインよりはスケッチへの忠実性が高いが、入力エッジをより正確に保持するpix2pixよりはやや低い忠実度であった。
同じ入力スケッチに対し、複数の異なる現実的な画像を生成することができ、出力の多様性が裏付けられた。
合成エッジマップを用いたデータ拡張技術により、モデルの汎化性能と性能が向上し、特にデータが少ない状況下で顕著であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。