[論文レビュー] Image Inpainting via Generative Multi-column Convolutional Neural Networks
この論文は、画像のインペインティングのために、複数の平行ブランチ、ID-MRF正則化、および信頼度駆動の再構成損失を用いて、後処理なしで妥当なグローバル構造と局所的テクスチャを合成する Generative Multi-column Convolutional Neural Network (GMCNN) を提案します。
In this paper, we propose a generative multi-column network for image inpainting. This network synthesizes different image components in a parallel manner within one stage. To better characterize global structures, we design a confidence-driven reconstruction loss while an implicit diversified MRF regularization is adopted to enhance local details. The multi-column network combined with the reconstruction and MRF loss propagates local and global information derived from context to the target inpainting regions. Extensive experiments on challenging street view, face, natural objects and scenes manifest that our method produces visual compelling results even without previously common post-processing.
研究の動機と目的
- グローバル構造と局所的テクスチャの両方を捉えることでインペインティングの改善を動機付ける。
- フル解像度入力から多様な成分を抽出するマルチブランチ生成器を提案する。
- テクスチャ生成を多様化・制約するための ID-MRF 正則化を導入する。
- 空間的に適応した制約を課す信頼度駆動の再構成損失を設計する。
- ポスト処理なしで街路風景、顔、自然画像における最先端の結果を示す。
提案手法
- フル解像度入力で動作する3つの並列エンコーダ−デコーダブランチを持つ Generative Multi-column CNN を使用する。
- ブランチ出力を連結し、共有デコーダを介してインペイント済み画像を出力する。
- 訓練時には VGG 特徴層上で算出される ID-MRF 正則化を導入し、多様で現実的なテクスチャを促進する。
- 欠損領域までの距離と境界付近を考慮して重みづけする信頼度駆動の再構成損失を採用する。
- 訓練中に Wasserstein GAN with gradient penalty を用いた全体・局所識別器による敵対的損失を組み込む。
実験結果
リサーチクエスチョン
- RQ1異なる受容野を持つ複数の並列エンコーダは、グローバル構造と局所的テクスチャのインペインティングをどのように改善できるか。
- RQ2訓練時の implicit な多様性MRF 正則化は、ポスト処理のMRF 手順より現実的なテクスチャを生み出せるか。
- RQ3空間的に変化する再構成損失は、さまざまなマスクとシーンで境界の一貫性とテクスチャ品質を向上させるか。
- RQ4ID-MRF、信頼度駆動損失、敵対的学習を組み合わせることで定量的および知覚的な再構成品質にどのような影響があるか。
主な発見
| モデル | PSNR(ストリートビュー) | SSIM(ストリートビュー) | PSNR(ImageNet) | SSIM(ImageNet) | PSNR(Places2) | SSIM(Places2) | PSNR(CelebA) | SSIM(CelebA) | PSNR(CelebA-HQ) | SSIM(CelebA-HQ) |
|---|---|---|---|---|---|---|---|---|---|---|
| CE [18] | 23.49 | 0.8732 | 23.56 | 0.9105 | - | - | - | - | - | - |
| MSNPS [24] | 24.44 | 0.8477 | 20.62 | 0.7217 | - | - | - | - | - | - |
| CA [26] | 23.78 | 0.8588 | 22.44 | 0.8917 | 20.03 | 0.8539 | 23.98 | 0.9441 | - | - |
| Ours | 24.65 | 0.8650 | 22.43 | 0.8939 | 20.16 | 0.8617 | 25.70 | 0.9546 | - | - |
- GMCNN は様々な受容野を持つことで、単一ブランチや粗-細構造のアーキテクチャより視覚的忠実度で優れている。
- ID-MRF 正則化は、使用しない場合と比べて局所的テクスチャの詳細と多様性を改善する。
- 信頼度駆動の再構成損失は、境界処理と段階的な学習フォーカスを、空間的に割引された代替よりも良く提供する。
- 定量的結果は複数データセットで PSNR および SSIM が競争力を持ち、ユーザ研究でも GMCNN の出力がベースラインを上回る。
- 視覚的結果は、街路風景、顔、自然物体でポスト処理なしの強力な性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。