QUICK REVIEW

[論文レビュー] UltraSR: Spatial Encoding is a Missing Key for Implicit Image Function-based Arbitrary-Scale Super-Resolution

Xingqian Xu, Zhangyang Wang|arXiv (Cornell University)|Mar 23, 2021

Advanced Image Processing Techniques参考文献 52被引用数 39

ひとこと要約

UltraSR は暗黙的画像関数を周期的な空間エンコードと深い座標融合で拡張し、DIV2Kおよび他のベンチマークで構造歪みを低減し高周波ディテールを強化することで、任意倍率 SR において最先端を達成します。

ABSTRACT

The recent success of NeRF and other related implicit neural representation methods has opened a new path for continuous image representation, where pixel values no longer need to be looked up from stored discrete 2D arrays but can be inferred from neural network models on a continuous spatial domain. Although the recent work LIIF has demonstrated that such novel approaches can achieve good performance on the arbitrary-scale super-resolution task, their upscaled images frequently show structural distortion due to the inaccurate prediction of high-frequency textures. In this work, we propose UltraSR, a simple yet effective new network design based on implicit image functions in which we deeply integrated spatial coordinates and periodic encoding with the implicit neural representation. Through extensive experiments and ablation studies, we show that spatial encoding is a missing key toward the next-stage high-performing implicit image function. Our UltraSR sets new state-of-the-art performance on the DIV2K benchmark under all super-resolution scales compared to previous state-of-the-art methods. UltraSR also achieves superior performance on other standard benchmark datasets in which it outperforms prior works in almost all experiments.

研究の動機と目的

SRのための暗黙関数ベースの2D画像表現における空間エンコードの役割を動機づけ、分析する。
周期的空間エンコードと深い座標融合を備えた UltraSR を提案し、高周波ディテール復元を改善する。
空間エンコードと残差・座標融合が LIIF を複数のSRスケールとデータセットで上回ることを示す。
アブレーションを通じて、空間エンコードとネットワーク設計の選択が SR 忠実度にとって重要であることを示す。

提案手法

座標上で 48D の正弦/余弦特徴を用いた周期的空間エンコード phi(delta x) を導入する。
すべての隠れ層に空間エンコードを結合した残差MLP（ResMLP）による深い座標融合を採用する。
高周波ディテールの伝播を改善し低周波リークを抑制するための残差リンク（ResMLP）を使用する。
LR特徴マップからの v_r と正規化座標差分 delta x を用いて implicit image function s = f_theta(v_r, delta x, phi(delta x)) を定式化する。
アップサンプリング層を持たないエンコーダ（EDSR または RDN）を採用し、LR領域からHRピクセルを描画するよう End-to-End で訓練する。
bicubicダウンサンプリングされたLR入力、ボクセル単位のレンダリングターゲット、L1損失を用い、Adamオプティマイザと段階的学習率減衰で訓練する。

実験結果

リサーチクエスチョン

RQ1 spatial encoding が LIIF のような既存手法と比較して任意倍率 SR の品質を大幅に改善するか？
RQ2座標融合と残差MLPといったアーキテクチャの選択が空間エンコードと相互作用して高周波ディテール再現にどう影響するか？
RQ3空間エンコード次元と周期的基底の量的影響は、スケールとデータセットを横断して SR性能にどう現れるか？
RQ4 UltraSR は DIV2K および標準的な SR ベンチマークの複数スケールで PSNR の最先端を達成できるか？

主な発見

	×2	×3	×4	×6	×12	×18	×24	×30
Bicubic	31.01	28.22	26.66	24.82	22.27	21.00	20.19	19.59
EDSR-baseline	34.55	30.90	28.92	–	–	–	–	–
MetaSR-EDSR	34.64	30.93	28.92	26.61	23.55	22.03	21.06	20.37
LIIF-EDSR	34.67	30.96	29.00	26.75	23.71	22.17	21.18	20.48
UltraSR-EDSR	34.69	31.02	29.05	26.81	23.75	22.21	21.21	20.51
MetaSR-RDN	35.00	31.27	29.25	26.88	23.73	22.18	21.17	20.47
LIIF-RDN	34.99	31.26	29.27	26.99	23.89	22.34	21.31	20.59
UltraSR-RDN	35.00	31.30	29.32	27.03	23.93	22.36	21.33	20.61

UltraSR は DIV2K スケール全般で LIIF および MetaSR を上回る（EDSR エンコーダと RDN エンコーダの両方）。
座標融合を伴う空間エンコードは、いくつかのスケールで約0.05 dB 程度の PSNR 増加と極端なスケールでの構造歪みの低減をもたらす。
ResMLP はこの暗黙関数 SR 設定で vanilla MLP より高周波ディテール回復性を提供する。
アブレーションから見ると、空間エンコード単独では不十分であり、座標融合と残差リンクを組み合わせることで最良の性能を得られる。
Set5, Set14, B100, Urban100, Manga109 の5つの標準データセット全体で、UltraSR-RDN および UltraSR-EDSR は LIIF および RDN を多くの報告エントリで上回り、特に大規模データセットとスケールで優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。