QUICK REVIEW

[論文レビュー] SC-FEGAN: Face Editing Generative Adversarial Network with User's Sketch and Color

Youngjoo Jo, Jongyoul Park|arXiv (Cornell University)|Feb 18, 2019

Generative Adversarial Networks and Image Synthesis参考文献 14被引用数 38

ひとこと要約

SC-FEGANは自由形マスク、スケッチ、カラー入力を用いて顔を編集するエンドツーエンドの訓練可能なGANシステムを提示し、広い領域が消去されても高品質な結果を生成します。U-Netスタイルのジェネレーターとゲート付き畳み込み、SN-PatchGANディスクリミネータを使用し、スタイル損失と知覚損失で強化されます。

ABSTRACT

We present a novel image editing system that generates images as the user provides free-form mask, sketch and color as an input. Our system consist of a end-to-end trainable convolutional network. Contrary to the existing methods, our system wholly utilizes free-form user input with color and shape. This allows the system to respond to the user's sketch and color input, using it as a guideline to generate an image. In our particular work, we trained network with additional style loss which made it possible to generate realistic results, despite large portions of the image being removed. Our proposed network architecture SC-FEGAN is well suited to generate high quality synthetic image using intuitive user inputs.

研究の動機と目的

自由形のユーザー入力（マスク、スケッチ、カラー）をサポートするインタラクティブな顔編集ツールの開発を動機づける。
512x512 の顔画像で高品質なインペインティングと編集が可能なエンドツーエンドの訓練可能なネットワークを開発する。
ユーザーの指導と特殊な損失を活用することで、顔の大部分が消去されても現実的な復元を可能にする。

提案手法

マスクされた領域を処理するために、U-Netアーキテクチャとゲート付き畳み込みを備えた完全畳み込みジェネレーターを使用する。
識別器としてSN-PatchGANを組み込み、安定した訓練のために勾配ペナルティを適用する。
ピクセルごと、知覚、スタイル、全変動、GAN損失を組み合わせた複合損失で訓練する。
入力チャンネルを incomplete image、mask、sketch、color map、and noise を含むように入力チャネルを拡張する。
CelebA-HQ から派生した自由形マスク、目ベースのマスク、カラー/スケッチドメインを含む訓練データを作成する。
畳み込みの後にLRNを適用し、ジェネレーター出力には tanh 活性化を使用する。

実験結果

リサーチクエスチョン

RQ1自由形マスク、スケッチ、カラー入力が、髪やアクセサリを含む顔領域を現実的に編集または復元するGANを導くか。
RQ2スタイル損失と知覚損失は、大規模な消去領域に対して純粋なGANベースのインペインティングより現実味とエッジ品質を向上させるか。
RQ3ゲート付き畳み込みを用いた SN-PatchGAN は、インタラクティブな顔編集の安定した訓練と高品質な出力を実現するか。
RQ4SC-FEGANは、従来法（例：DeepFill 系統、FaceShop）と比較して大域領域の消去とユーザー案内編集の処理においてどう比較されるか。
RQ5髪のような顔の領域全体がイラストやカラーガイダンスのみ提供される状況で、妥当な編集を生成できるか。

主な発見

提案されたSC-FEGANは、粗いリファレンスやU-Netベースのベースラインと比較して、定性的な比較でより高品質で現実的な編集をもたらす。
VGGベースの知覚・スタイル損失で訓練すると、特に大規模な消去領域で結果が改善される。
SN-PatchGANディスcriminatorと勾配ペナルティにより訓練が安定し、マスク境界でエッジがシャープになる。
自由形スケッチとカラー入力を用いて、顔の形状、ヘアスタイル、目の色、イヤリングといったアクセサリの編集が、大規模な消去があっても可能である。
CelebA-HQ上で、512x512画像に対して推論が高速である（おおよそ44 ms GPU上）ことが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。