Skip to main content
QUICK REVIEW

[論文レビュー] Painting Outside the Box: Image Outpainting with GANs

Mark Sabini, Gili Rusak|arXiv (Cornell University)|Aug 25, 2018
Generative Adversarial Networks and Image Synthesis参考文献 6被引用数 27
ひとこと要約

この論文は、元の境界を超えて現実的な画像拡張を生成するためのGANベースの手法を提案している。グローバルおよびローカルの判別器を用いた三段階の訓練スケジュールを採用することで、128×128の画像に対して安定的で高品質なアウトペイントが実現され、ローカル判別器を用いることで、現実性のあるテクスチャと向上した忠実度を有する再帰的アウトペイントが可能になった。

ABSTRACT

The challenging task of image outpainting (extrapolation) has received comparatively little attention in relation to its cousin, image inpainting (completion). Accordingly, we present a deep learning approach based on Iizuka et al. for adversarially training a network to hallucinate past image boundaries. We use a three-phase training schedule to stably train a DCGAN architecture on a subset of the Places365 dataset. In line with Iizuka et al., we also use local discriminators to enhance the quality of our output. Once trained, our model is able to outpaint $128 imes 128$ color images relatively realistically, thus allowing for recursive outpainting. Our results show that deep learning approaches to image outpainting are both feasible and promising.

研究の動機と目的

  • 画像の境界外に現実的な画像拡張を生成するという、まだ十分に検討が進んでいないタスクに取り組むこと。
  • 画像補完から画像アウトペイントというより困難な設定に、敵対的訓練技術を適応すること。
  • 三段階の訓練スケジュールとアーキテクチャの強化を通じて、アウトペイント用のGAN訓練を安定化すること。
  • ローカル判別器と拡張畳み込みの生成品質および安定性への影響を評価すること。
  • パノラマ作成や動画拡張などの応用を想定し、再帰的アウトペイントを可能とすること。

提案手法

  • 生成器にエンコーダ・デコーダ構造を用い、二値分類のためのストライド畳み込みを用いた判別器を備えたDCGANアーキテクチャを採用する。
  • 三段階の訓練スケジュールを採用:段階1ではMSE損失を用いて生成器を事前学習し、段階2では敵対的損失を用いて判別器を訓練し、段階3では両者を結合損失関数で同時に最適化する。
  • 生成器損失はMSE再構成損失と敵対的損失の組み合わせで構成される:$\mathcal{L}_{G} = \mathcal{L}_{\mathrm{MSE}} - \alpha \cdot \log D(G(I_p))$。
  • ローカル判別器を導入することで、アウトペイント領域に注目し、グローバル判別器のみを用いた場合と比較して、テクスチャと色の忠実度が向上する。
  • 生成器に拡張畳み込みを用いることで、受容 field を拡大し、画像境界を越えた効果的な外挿を可能にする。
  • 事前処理では、中央領域をマスクし、外側のピクセルを未マスク領域の平均で置き換え、マスク画像とマスクを連結して4チャンネル入力を形成する。

実験結果

リサーチクエスチョン

  • RQ1GANは、画像補完よりもあまり研究が進んでいない画像アウトペイントタスクに効果的に適応可能か?
  • RQ2標準的なGAN訓練と比較して、三段階の訓練スケジュールはアウトペイント用GANの訓練安定性を向上させるか?
  • RQ3ローカル判別器の導入は、アウトペイント画像の視覚的品質および現実性にどのような影響を与えるか?
  • RQ4拡張畳み込みは、生成器の画像境界を越えた外挿能力をどの程度向上させるか?
  • RQ5複数反復においても安定的で現実的な結果を得られる再帰的アウトペイントが可能か?

主な発見

  • 三段階の訓練スケジュールにより訓練の安定性が著しく向上し、段階1ではMSE損失が急速に減少し、段階3では両者を同時に最適化するためわずかに増加した。
  • ローカル判別器を用いた訓練では縦方向のバンド状アーチファクトが減少し、色の忠実度が向上し、グローバル判別器のみを用いた場合と比較してRMSEが低くなった。
  • ローカル判別器の導入により訓練時間が約60%延長され、より多くの点アーチファクトが生じたため、品質と効率のトレードオフが生じた。
  • 拡張畳み込みは、成功したアウトペイントに不可欠であった。十分な拡張がなければ、受容 field が限られるため、ネットワークは画像を再構成できなかった。
  • 5反復の再帰的アウトペイントにより、画像の幅が3.5倍に拡張され、一般化されたテクスチャと現実性を維持したが、ノイズが蓄積された。
  • 128×128のカラー画像に対して、現実的なアウトペイントが達成され、深層学習による画像外挿の実現可能性と可能性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。