QUICK REVIEW

[論文レビュー] Image Super-Resolution via Iterative Refinement

Chitwan Saharia, Jonathan Ho|arXiv (Cornell University)|Apr 15, 2021

Advanced Image Processing Techniques被引用数 46

ひとこと要約

SR3 はデノイジング拡散モデルを条件付き画像超解像に適応させ、反復的なデノイジングプロセスを通じて高忠実度の出力を生成し、カスケード型の高解像度生成を実現します。

ABSTRACT

We present SR3, an approach to image Super-Resolution via Repeated Refinement. SR3 adapts denoising diffusion probabilistic models to conditional image generation and performs super-resolution through a stochastic denoising process. Inference starts with pure Gaussian noise and iteratively refines the noisy output using a U-Net model trained on denoising at various noise levels. SR3 exhibits strong performance on super-resolution tasks at different magnification factors, on faces and natural images. We conduct human evaluation on a standard 8X face super-resolution task on CelebA-HQ, comparing with SOTA GAN methods. SR3 achieves a fool rate close to 50%, suggesting photo-realistic outputs, while GANs do not exceed a fool rate of 34%. We further show the effectiveness of SR3 in cascaded image generation, where generative models are chained with super-resolution models, yielding a competitive FID score of 11.3 on ImageNet.

研究の動機と目的

拡散確率モデルを条件付き画像生成へ適応させ、超解像を実現する。
低解像度入力に条件付けされたデノイジングU-Netを開発し、出力を反復的に精緻化する。
SR3を顔画像と自然画像のSRに対して評価し、人間の欺瞞率研究やカスケード型高解像度生成を含む。

提案手法

低解像度入力を条件として、ガウスノイズを高解像度画像へ変換する条件付きDDPMフレームワークを用いる。
ノイズを予測するデノイジング目的を用いて、(x, y_t, gamma)を入力とするU-Netデノイザーf_thetaを訓練する。
アップサンプリングした低解像度入力を連結とgammaをノイズレベルスカラーとしてデノイザーの条件付けを行う。
固定された有限の改良ステップTを用いて推論し、ガウス後方分布p_theta(y_{t-1}|y_t,x)で推論する。
gamma結合の条件付けを持つ拡散スケジュールを採用し、予測ノイズをεと一致させる損失で訓練する。
必要に応じてSR3モデルをスケール間でカスケードさせ、効率的に高解像度出力を構築する。
知覚品質のための人間欺瞞率研究で評価し、カスケード生成には自動指標(FID/IS)を含める。

実験結果

リサーチクエスチョン

RQ1SR3 は顔画像と自然画像全体で高忠実度の超解像に対する条件付き分布 p(y|x) を効果的にモデルできるか？
RQ2SR3 は知覚品質と入力との一貫性で、GANベースの手法（FSRGAN、PULSE）および回帰ベースの基準とどのように比較されるか？
RQ3SR3をスケール間でカスケードさせることは、1024x1024の顔と256x256のImageNet生成を効率的かつ高品質に実現しますか？
RQ4拡散ベースの反復的な精緻化を用いることが、人間の欺瞞率やFID/ISといった標準指標に与える影響は？
RQ5条件付けアプローチ（アップサンプルされたxとの連結とgamma条件付け）は高品質なSRに十分ですか？

主な発見

モデル	PSNR	SSIM	一貫性
PULSE	16.88	0.44	161.1
FSRGAN	23.01	0.62	33.8
Regression	23.96	0.69	2.71
SR3	23.04	0.65	2.68

SR3は最先端のGANと比較して、人間の知覚品質が競争力があるまたは優れており（8x CelebA-HQ顔SRで欺瞞率が約50%に近い）
SR3はGANベースの手法より低解像度入力との整合性が高く、補助的な整合性損失なしで実現。
ImageNetの自然画像では、PSNR/SSIMは低いものの、FID/ISは回帰基準より高い。
カスケードSR3パイプラインは、1024x1024の顔と256x256のImageNetサンプルを競争力のあるFIDスコアで生成できる。
自動指標（PSNR/SSIM）は高忠実度かつ多モーダルな出力に対する人間の嗜好と一致しない場合があり; SR3は多くの設定で知覚品質を改善する。
非条件型カスケード（64x64 から高解像度へ）は、段階的な改良を通じて高解像度画像を合成する能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。