[論文レビュー] RePaint: Inpainting using Denoising Diffusion Probabilistic Models
RePaintは事前条件なしのDDPMを事前分布として用い、既知の画像領域を条件として逆拡散を適用することで、任意のマスクに対する自由形式のインペイントを実行し、マスク特有の学習を必要とせずに高品質で多様な結果を達成します。
Free-form inpainting is the task of adding new content to an image in the regions specified by an arbitrary binary mask. Most existing approaches train for a certain distribution of masks, which limits their generalization capabilities to unseen mask types. Furthermore, training with pixel-wise and perceptual losses often leads to simple textural extensions towards the missing areas instead of semantically meaningful generation. In this work, we propose RePaint: A Denoising Diffusion Probabilistic Model (DDPM) based inpainting approach that is applicable to even extreme masks. We employ a pretrained unconditional DDPM as the generative prior. To condition the generation process, we only alter the reverse diffusion iterations by sampling the unmasked regions using the given image information. Since this technique does not modify or condition the original DDPM network itself, the model produces high-quality and diverse output images for any inpainting form. We validate our method for both faces and general-purpose image inpainting using standard and extreme masks. RePaint outperforms state-of-the-art Autoregressive, and GAN approaches for at least five out of six mask distributions. Github Repository: git.io/RePaint
研究の動機と目的
- マスク条件付きジェネレータの学習を行わず、任意の形状のマスクに対する自由形式の画像インペイントに取り組む。
- 意味的で質感豊かなインペイントのために、事前訓練済みの条件なしDDPMを事前情報として活用する。
- 拡散過程中に既知領域と生成領域の調和を取るリサンプリング戦略を導入する。
提案手法
- インペイントの生成事前分布として、市販の条件なしDDPMを用いる。
- DDPMの重みを変更せず、逆拡散中に既知領域からサンプルして生成を条件付けする。
- 条件付け済み領域と生成コンテンツを調和させるため、拡散時間を前後に跳ぶリサンプリング(RePaint)戦略を導入する。
- 前方過程を用いて既知領域から x_{t-1}^{known} をサンプルし、DDPM から x_{t-1}^{unknown} をサンプルしてマスクを用いて結合する。
- 意味的整合性を過度に拡散を遅くすることなく高めるため、ジャンプ長さ(j)を伴う複数のリサンプリング手順(r)を漸増適用する。
実験結果
リサーチクエスチョン
- RQ1条件付きマスクモデルを学習させずに、任意のマスク全体に対してインペイントの一般的な事前分布として条件なしDDPMは機能するだろうか?
- RQ2逆拡散中のリサンプリング戦略は、標準のDDPMサンプリングと比較してインペイント領域の意味的一貫性と現実感を改善するか?
- RQ3RePaintは、顔画像と一般画像に対して、細いマスク、広範囲マスク、極端なマスクといった異なるマスクタイプでどう機能するか?
- RQ4リサンプリングベースの条件付けと、拡散の遅延といった代替戦略とのトレードオフは何か?
主な発見
- RePaintは極端なマスクに対して高品質かつ多様なインペイント結果を達成し、いくつかのマスク分布で最先端の自己回帰モデルやGAN手法を上回る。
- リサンプリング戦略は、平常のDDPM条件付けと比べて、既知領域と生成領域の意味的調和を著しく改善する。
- CelebA-HQとImageNetでの評価は、複数のマスク設定において定性的・知覚的結果が改善され、LPIPSとユーザー調査の投票にも好意的な結果を示す。
- クラス条件実験は、事前学習済みのImageNet DDPMが意味的に意味のあるクラス指向のインペイントを生成できることを示している。
- アブレーション研究は、ジャンプ長さとリサンプリング手順(r)の数が画像品質に正の影響を与え、より大きなジャンプ長さ(j)がより良い結果を生むことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。