QUICK REVIEW

[論文レビュー] MAT: Mask-Aware Transformer for Large Hole Image Inpainting

Wenbo Li, Zhe Lin|arXiv (Cornell University)|Mar 29, 2022

Generative Adversarial Networks and Image Synthesis被引用数 25

ひとこと要約

MATは高解像度でマスク対応のトランスフォーマーを大きい欠損領域の画像修復に適用し、新規のマルチヘッド文脈的注意機構とスタイル変調モジュールを特徴とし、高忠実度かつ多様な補完を可能にします。

ABSTRACT

Recent studies have shown the importance of modeling long-range interactions in the inpainting problem. To achieve this goal, existing approaches exploit either standalone attention techniques or transformers, but usually under a low resolution in consideration of computational cost. In this paper, we present a novel transformer-based model for large hole inpainting, which unifies the merits of transformers and convolutions to efficiently process high-resolution images. We carefully design each component of our framework to guarantee the high fidelity and diversity of recovered images. Specifically, we customize an inpainting-oriented transformer block, where the attention module aggregates non-local information only from partial valid tokens, indicated by a dynamic mask. Extensive experiments demonstrate the state-of-the-art performance of the new model on multiple benchmark datasets. Code is released at https://github.com/fenglinglwb/MAT.

研究の動機と目的

低解像度アプローチを超える大きな欠損領域の修復において、長距離文脈モデリングの改善を動機づける。
高解像度画像を効率的に処理できる補完指向のトランスフォーマーを設計する。
大規模な欠損領域を扱う際の訓練安定性を、アーキテクチャ的改良を通じて保証する。
現実味のある多様な補完を生成するための多様性生成を可能にする。
現実感を保ちながら出力を制御可能なスタイル操作モジュールを組み込む。

提案手法

効率性のためにマスクされた画像から1/8サイズの特徴トークンを抽出する畳み込みヘッドを導入する。
レイヤー正規化を取り除き、残差接続の代わりに特徴連結（融合学習）を用いる調整済みのトランスフォーマーブロックを開発する。
有効トークンのみを用いた動的マスクとシフトウィンドウ方式による非局所注意を実行するMulti-Head Contextual Attention (MCA)を提案する。
アテンションの伝播中に有効トークンを段階的に明示して利用する動的マスク更新戦略を採用する。
画像条件およびノイズ由来のスタイルによって畳み込み重みを調整するスタイル操作モジュールを組み込み、多様な出力を可能にする。
非飽和性対抗損失、R1正則化、および知覚損失を利用して、ピクセル毎のMAE/MSE損失に依存せず高忠実度生成器を訓練する。

実験結果

リサーチクエスチョン

RQ1トランスフォーマー系アーキテクチャは、視覚的リアリズムと意味的一貫性を維持しつつ、直接高解像度画像を大きな欠損穴の修復に処理できるか。
RQ2マスク駆動の部分的な注意機構は、欠損領域が大きい場合の長距離文脈モデリングを、全注意と比較して改善するか。
RQ3アーキテクチャの改良（レイヤー正規化なし、融合学習）により大きなマスクでの訓練を安定させ、補完品質を改善できるか。
RQ4スタイル操作モジュールは現実味を損なうことなく、多様で妥当な補完（ pluralistic generation）を効果的に生み出すか。

主な発見

完全なMATモデルは、PlacesおよびCelebA-HQベンチマークで大きな欠損領域の補修において最先端の性能を達成する。
アブレーションは、Placesベースの256×256入力の評価で、FID 5.97、P-IDS 13.17、U-IDS 29.23 で完全モデルが他のバリアントを上回ることを示す。
トランスフォーマーを畳み込みに置き換えるとすべての指標で性能が低下し、長距離文脈モデリングの利点を裏付ける。
融合学習を用いた調整済みトランスフォーマーブロックは、従来のトランスフォーマーブロックと比較して補完の安定性と品質に明確な利得をもたらす。
有効トークンの動的マスクを用いるMulti-Head Contextual Attention (MCA) は、カラー整合性を改善し、全注意バリアントと比較してブレを減らす。
スタイル操作モジュールは知覚的に多様な補完を可能にし、除去したアブレーション変種ではP-IDSとU-IDSが顕著に低下する。
MATパイプライン内の高解像度再構築は、低解像度生成アプローチと比較して結果を大幅に改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。