QUICK REVIEW

[論文レビュー] Adversarial Scene Editing: Automatic Object Removal from Weak Supervision

Rakshith Shetty, Mario Fritz|arXiv (Cornell University)|Jun 5, 2018

Generative Adversarial Networks and Image Synthesis被引用数 51

ひとこと要約

弱教師ありで訓練された一般シーン画像向けの、二段階・相互作用無しのオブジェクト除去モデル。マスク生成とGANフレームワーク内のインペイントを用い、形状 priors を活用して ground-truth のターゲットなしにオブジェクトを除去します。

ABSTRACT

While great progress has been made recently in automatic image manipulation, it has been limited to object centric images like faces or structured scene datasets. In this work, we take a step towards general scene-level image editing by developing an automatic interaction-free object removal model. Our model learns to find and remove objects from general scene images using image-level labels and unpaired data in a generative adversarial network (GAN) framework. We achieve this with two key contributions: a two-stage editor architecture consisting of a mask generator and image in-painter that co-operate to remove objects, and a novel GAN based prior for the mask generator that allows us to flexibly incorporate knowledge about object shapes. We experimentally show on two datasets that our method effectively removes a wide variety of objects using weak supervision only

研究の動機と目的

境界ボックスやマスクを用いず、一般的なシーン画像での自動オブジェクト除去を実現する。
画像レベルのラベルとペアでないデータを活用してGANを通じた除去を学習する。
二段階アーキテクチャでマスク生成器とインペインターを結合し、退化解を防ぐ。
Wasserstein GANを介して柔軟なマスク priors（長方形やペアリングされていないセグメンテーションマスク）を課し、一貫したマスクを促進する。
COCOおよびロゴデータセットで、完全に監視されたベースラインと同等の除去性能を示す。）

提案手法

マスク生成器 G_M とインペインター G_I が協調してオブジェクトを除去する、二段階エディター。
マスク生成器は対象オブジェクト分類器を騙すように訓練され、インペインターはマスク領域を埋めて現実的な出力を生むことを学習する。
GANベースのpriorが、prior discriminator D_M と prior loss L_prior を通じてマスク形状を強制する。
インペインティングは、ランダムパッチに対する再構成損失、局所的な real/fake 損失、画像品質損失（tv、style）を用いて、一貫性のある質感を生成するよう訓練される。
退化解を防ぎ、共適応を可能にするため、G_M と G_I の交互最適化。
再構成損失および知覚損失が、対象オブジェクトを除去しつつ画像忠実度を維持するようインペインターを導く。

実験結果

リサーチクエスチョン

RQ1ground-truth ターゲット画像や正確なマスクなしで、一般的なシーンレベルのオブジェクト除去を弱教師付きで学習できるか？
RQ2ごちゃついたシーンで、二段階エディター（マスク生成 + インペインティング）は、単一段階の生成アプローチより除去品質を向上させるか？
RQ3マスク priors（幾何形状やペアリングされていないセグメンテーションマスク）は、除去マスクの一貫性と精度をどう改善できるか？
RQ4標準データセットで、weakly supervised な除去は Mask-RCNN のような完全監視法と競争力があるか？
RQ5弱教師付きで、ロゴなどの非オブジェクト成分の除去へ frameworkを一般化できるか？

主な発見

二段階エディター（マスク生成器 + インペインター）は退化解を減らし、COCO で完全に監視されたセグメンターと同程度の除去を達成。
Wasserstein距離を介した柔軟なマスク priors の課成が、マスクの一貫性を高め、偽除去を減らしつつ画像品質を維持する。
ペアリングされていないセグメンテーションマスクや単純なボックス priors の使用は、 priors なしと比べてより正確なマスクとより良い画像品質をもたらす。
特定の設定では GT/Mask-RCNN マスクを用いた完全監視ベースラインを除去で上回り、dilated Mask-RCNN マスクでは類似の性能に近づく。
この手法は画像レベルラベルのみでロゴ除去にも一般化でき、オブジェクト除去を超えるより広い適用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。