QUICK REVIEW

[論文レビュー] Spatially Controllable Image Synthesis with Internal Representation Collaging

Ryôhei Suzuki, Masanori Koyama|arXiv (Cornell University)|Nov 26, 2018

Generative Adversarial Networks and Image Synthesis参考文献 42被引用数 34

ひとこと要約

本稿では、中間特徴表現を操作することにより、事前学習済み GAN において空間的に制御可能な意味的編集を可能にする、新しい CNN に基づく画像編集手法を提案する。空間的条件付きバッチ正規化（sCBN）と特徴量ブレンドを用いることで、ラベルマップや特徴量転送を介して、再訓練を伴わずに合成画像および実画像の特定領域を高精細かつ局所的に編集できる。

ABSTRACT

We present a novel CNN-based image editing strategy that allows the user to change the semantic information of an image over an arbitrary region by manipulating the feature-space representation of the image in a trained GAN model. We will present two variants of our strategy: (1) spatial conditional batch normalization (sCBN), a type of conditional batch normalization with user-specifiable spatial weight maps, and (2) feature-blending, a method of directly modifying the intermediate features. Our methods can be used to edit both artificial image and real image, and they both can be used together with any GAN with conditional normalization layers. We will demonstrate the power of our method through experiments on various types of GANs trained on different datasets. Code will be available at https://github.com/pfnet-research/neural-collage.

研究の動機と目的

事前学習済み GAN において、再訓練を伴わずに微細かつ空間的に局所化された意味的編集を可能にすること。
既存の GAN 編集手法が空間的制御性に欠けたり、明示的な特徴定義を必要とすることを是正すること。
AdaIN や CBN 層を備えた任意の GAN と互換性がある、即挿し可能なソリューションを提供すること。
多様体射影と特徴空間の操作を組み合わせることで、実画像の編集を可能にすること。
直感的なユーザー指定の空間マップやソース領域を用いて、写真のようにリアルな複数領域の編集を実現すること。

提案手法

ユーザー定義の空間的ウェイトマップを特徴変換の条件として適用する、条件付きバッチ正規化の空間的拡張版である空間的条件付きバッチ正規化（sCBN）を導入する。
空間的に定義されたブレンド比に従って、複数のソース画像からの中間特徴マップを直接混合する方法である特徴量ブレンドを採用する。
sCBN と特徴量ブレンドを併用することで、一度の推論プロセスで複雑な複数領域の意味的編集を実現する。
実画像を事前学習済み GAN の潜在空間にマッピングするための多様体射影を適用し、特徴空間の操作により実画像の編集を可能にする。
追加の訓練や教師信号を一切用いずに、学習済み GAN の内部特徴表現を活用して編集を実行する。
主に AdaIN や CBN 層を備えたアーキテクチャに依存するため、広範な適用性を有する。

実験結果

リサーチクエスチョン

RQ1事前学習済みモデルの内部特徴表現のみを用いて、GAN 生成画像における正確で局所的な意味的編集が可能か？
RQ2空間的に変化する条件付き正規化は、1枚の画像内で複数クラス・複数領域の意味的編集を可能にするか？
RQ3明示的なアノテーションなしで、複雑で非クラス特異的な特徴量（例：顔の表情）を直接特徴空間でブレンドして転送できるか？
RQ4実画像における忠実度とリアリズムの観点から、本手法の性能は既存の GAN ベースの画像変換モデルと比べてどの程度優れているか？
RQ5再訓練なしで、多様なデータセットおよび GAN アーキテクチャにどの程度一般化可能か？

主な発見

猫から大型猫への翻訳において、トップ5分類誤差率が7.8%に達し、UNIT（14.8%）および MUNIT（26.0%）を上回った。
猫から犬への翻訳において、トップ5誤差率は21.1%に留まり、MUNITの55.4%および UNIT の N/A（手法的制限のため）を著しく下回った。
Amazon Mechanical Turk を用いた人間評価では、猫から大型猫への翻訳において83.9%の参加者が本手法の編集結果を UNIT より好んだ。また、犬から犬への翻訳においては87.0%が本手法の結果を好んだ。
人間の知覚評価において、本手法は全テスト対象の翻訳ペアで MUNIT や UNIT よりもより写真的リアリズムであると評価され、偶然より著しく高い割合（50%以上）で好まれた。
sCBN と特徴量ブレンドの組み合わせにより、犬の種類と顔の表情を同時に変更するような複雑な編集が可能であることが図2で示された。
本手法は100種類以上のクラスをカバーする多対多翻訳を成功裏に実現し、単なるドメイン対ドメイン翻訳を超えたスケーラビリティと一般化能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。