[論文レビュー] Thinking inside the Convolution for Image Inpainting: Reconstructing Texture via Structure under Global and Local Side
論文はエンコーダのダウンサンプリング中に構造特徴マップを使ってテクスチャ特徴マップを再構成し、グローバルおよびローカル正規化/デノーマライゼーションとクロスレイヤーバランスモジュールでアップサンプリングをガイドすることで、256–512の画像で最先端のインペインティングを達成する。
Image inpainting has earned substantial progress, owing to the encoder-and-decoder pipeline, which is benefited from the Convolutional Neural Networks (CNNs) with convolutional downsampling to inpaint the masked regions semantically from the known regions within the encoder, coupled with an upsampling process from the decoder for final inpainting output. Recent studies intuitively identify the high-frequency structure and low-frequency texture to be extracted by CNNs from the encoder, and subsequently for a desirable upsampling recovery. However, the existing arts inevitably overlook the information loss for both structure and texture feature maps during the convolutional downsampling process, hence suffer from a non-ideal upsampling output. In this paper, we systematically answer whether and how the structure and texture feature map can mutually help to alleviate the information loss during the convolutional downsampling. Given the structure and texture feature maps, we adopt the statistical normalization and denormalization strategy for the reconstruction guidance during the convolutional downsampling process. The extensive experimental results validate its advantages to the state-of-the-arts over the images from low-to-high resolutions including 256*256 and 512*512, especially holds by substituting all the encoders by ours. Our code is available at https://github.com/htyjers/ConvInpaint-TSGL
研究の動機と目的
- 畳み込みダウンサンプリング中の構造およびテクスチャ特徴マップの情報損失を動機付けて定量化する。
- グローバルおよびローカル側の構造特徴マップからテクスチャ特徴マップを再構成する正規化/デノーマライゼーションのフレームワークを提案する。
- デコーダのアップサンプリングを改善する globally and locally residual structure strategy とクロスレイヤーバランスモジュールを導入する。
- 構造を介してテクスチャを再構成することが、ベースライン手法と比べて意味領域の保持とテクスチャマップ損失の低減に寄与することを示す。
提案手法
- 入力からマルチスケールの構造特徴マップとテクスチャ特徴マップを抽出する。構造には部分畳み込みを、テクスチャにはTransformerを強化した経路を用いる。
- 層を跨いでテクスチャと構造マップを融合するために空間適応型正規化/デノーマライゼーションを適用し、グローバルおよびローカル統計量(平均/分散)を用いてEq. 6で構造からテクスチャを再構成する。
- グローバルなテクスチャ特徴マップはグローバル構造マップでの再構成から恩恵を受け、ローカルなテクスチャマップはローカル残差構造マップから恩恵を受け、クロスレイヤーバランスでアップサンプリングを行う。
- 二つの正規化ストリーム(グローバルとローカル)を用いてテクスチャ再構成を導き、再生成されたテクスチャ特徴を結合して後続のダウンサンプリングとデコーダ入力に用いる。
![Figure 1 : CTSDG [ 5 ] suffers from the non-ideal inpainting results due to mutual guidance between the global structure and texture feature map in decoder, where the sparse structure feature map is broken down via the fusion from the texture (b) feature map, while the texture feature map receives n](https://ar5iv.labs.arxiv.org/html/2602.03013/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1構造特徴マップは画像インペインティングにおける畳み込みダウンサンプリング時のテクスチャ特徴マップ損失を緩和できるか。
- RQ2最適な再構成のための正規化/デノーマライゼーション戦略(グローバル対ローカル)と構造/テクスチャの組み合わせはどれか。
- RQ3グローバルおよびローカルの残差構造とクロスレイヤーバランスモジュールを組み合わせるとスケール間でのインペインティング性能は向上するか。
- RQ4提案手法は256×256および512×512の画像に適用した場合、最先端のエンコーダと比較してどうか。
主な発見
- 構造特徴マップを介してテクスチャ特徴マップを再構成すると、逆方向よりもテクスチャ特徴マップ損失をより効果的に低減し、領域分離と意味保持を助ける。
- グローバルなテクスチャ再構成とローカル残差構造再構成の組み合わせが、検証された変異体の中で最良の性能を示す。
- クロスレイヤーバランスモジュールはグローバル対ローカルの残差構造特徴をグループ化してアップサンプリングとデコーダの案内を改善する。
- 本手法は最先端手法を上回る成果を達成し、ベースライン間でエンコーダを置換しても256×256および512×512入力で効果的である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。