Skip to main content
QUICK REVIEW

[論文レビュー] Generative Visual Manipulation on the Natural Image Manifold

Jun-Yan Zhu, Philipp Krähenbühl|arXiv (Cornell University)|Sep 12, 2016
Advanced Vision and Imaging参考文献 42被引用数 121
ひとこと要約

この論文はGANで自然画像のマニフォールドを学習し、それを制約としてリアルタイムでフォトリアリスティックな画像編集を実現し、実写真へ編集を転送します。形状/色の編集、生成的な変換、そしてスケッチからの画像生成を可能にします。

ABSTRACT

Realistic image manipulation is challenging because it requires modifying the image appearance in a user-controlled way, while preserving the realism of the result. Unless the user has considerable artistic skill, it is easy to "fall off" the manifold of natural images while editing. In this paper, we propose to learn the natural image manifold directly from data using a generative adversarial neural network. We then define a class of image editing operations, and constrain their output to lie on that learned manifold at all times. The model automatically adjusts the output keeping all edits as realistic as possible. All our manipulations are expressed in terms of constrained optimization and are applied in near-real time. We evaluate our algorithm on the task of realistic photo manipulation of shape and color. The presented method can further be used for changing one image to look like the other, as well as generating novel imagery from scratch based on user's scribbles.

研究の動機と目的

  • 自然画像マニフォールドの上に留まる、ユーザー主導のフォトリアリスティックな編集を動機づけ、実現する。
  • データからGANsを用いて画像マニfoldを学習し、編集がこのマニフォールド上に留まるよう制約する。
  • リアルタイムの勾配ベース編集操作(カラー、形状、ワーピング)と元画像への信頼性の高い編集転送を提供する。
  • 手書きスケッチから新しい画像を生成し、学習済みマニフォールド内で画像間のモーフィングを可能にする。

提案手法

  • 自然画像マニフォールドをM~ = {G(z)}として近似するGANを訓練し、ユークリッド潜在距離を知覚的類似性の代理指標として用いる。
  • 実画像をGANマニフォールドに射影するため、最も近い潜在zを最適化または学習エンコーダP(x; θP)で見つける。
  • 潜在空間で、ユーザーの制約を課しつつz0の近くかつマニフォールド上に留まる制約付き最適化(式5)を解くことで編集を行う。
  • 高解像度画像への編集転送を、密な運動+カラーフロー(式6)とガイド付きアップサンプリングを用いて行う。
  • ブラシベースの着色、スケッチ(HOG特徴量)、ワーピング制約(式5)を備えた対話型UIを提供する。
  • 三つの応用をサポートする:既存写真の現実的な操作、画像間の生成的変換、スケッチからの対話的な画像生成。

実験結果

リサーチクエスチョン

  • RQ1GANが学習した自然画像マニフォールドは、画像編集の安全で制御可能な制約となり得るか?
  • RQ2ユーザー編集をマニフォールド上に留めつつ、出力を元画像に近づける制約としてどう表現するか?
  • RQ3実写真をGANマニフォールドへ射影し、再度元画像へ逆伝播させる編集の有効性はどの程度か?
  • RQ4生成画像から実写真へ、密な対応技術を用いて高忠実度の転送は可能か?
  • RQ5着色、スケッチ、ワーピングといった異なる編集制約は、現実的な結果を生み出す上でどう性能を示すか?

主な発見

  • ハイブリッド射影(学習エンコーダ+最適化)は、単独の最適化またはエンコーダよりも再構成性能が向上する。
  • データセット別再構成誤差は、ハイブリッド法が最適化ベースおよびネットワークベースの射影の両方を常に上回す(Shoes/Church Outdoor/Outdoor Natural/Handbags/Shirts)。
  • 編集更新は50–100 msで動作し、ほぼリアルタイムの対話的フィードバックを実現する;高解像度への最終編集転送は5–10秒。
  • GANマニフォールドに制約されたユーザー編集は、素のGAN出力よりもフォトリアリスティックな結果を生み出し、形状+カラー編集はユーザー調査でより高い知覚リアリズムを達成した。
  • 本手法は三つの機能を実現する:現実的な画像操作、画像間の生成的変換、スケッチからの画像生成。
  • 運動+カラー・フローに基づく編集転送は、元画像への編集適用時のアーティファクトを減らし、ガイド付きフィルタリングで高解像度化が可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。