QUICK REVIEW

[논문 리뷰] UltraSR: Spatial Encoding is a Missing Key for Implicit Image Function-based Arbitrary-Scale Super-Resolution

Xingqian Xu, Zhangyang Wang|arXiv (Cornell University)|2021. 03. 23.

Advanced Image Processing Techniques참고 문헌 52인용 수 39

한 줄 요약

UltraSR은 암묵적 이미지 함수에 주기적 공간 인코딩과 깊은 좌표 융합을 더해 DIV2K 및 기타 벤치마크에서 구조적 왜곡을 줄이고 고주파 디테일을 향상시켜 임의 스케일 SR에서 최첨단 성능을 달성합니다.

ABSTRACT

The recent success of NeRF and other related implicit neural representation methods has opened a new path for continuous image representation, where pixel values no longer need to be looked up from stored discrete 2D arrays but can be inferred from neural network models on a continuous spatial domain. Although the recent work LIIF has demonstrated that such novel approaches can achieve good performance on the arbitrary-scale super-resolution task, their upscaled images frequently show structural distortion due to the inaccurate prediction of high-frequency textures. In this work, we propose UltraSR, a simple yet effective new network design based on implicit image functions in which we deeply integrated spatial coordinates and periodic encoding with the implicit neural representation. Through extensive experiments and ablation studies, we show that spatial encoding is a missing key toward the next-stage high-performing implicit image function. Our UltraSR sets new state-of-the-art performance on the DIV2K benchmark under all super-resolution scales compared to previous state-of-the-art methods. UltraSR also achieves superior performance on other standard benchmark datasets in which it outperforms prior works in almost all experiments.

연구 동기 및 목표

SR를 위한 암묵적 함수 기반 2D 영상 표현에서 공간 인코딩의 역할을 고찰하고 그 중요성을 분석한다.
주기적 공간 인코딩과 깊은 좌표 융합으로 고주파 디테일 회복을 개선하는 UltraSR을 제안한다.
공간 인코딩과 잔차(리절드) 및 좌표 융합이 다중 SR 스케일과 데이터셋에서 LIIF를 능가함을 보인다.
소거 연구를 통해 공간 인코딩과 네트워크 설계 선택이 SR 충실도에 결정적임을 입증한다.

제안 방법

좌표에 대해 48D 사인/코사인 피처를 사용하는 주기적 공간 인코딩 phi(delta x)를 도입한다.
공간 인코딩과 2D 좌표를 연결해 잔차 MLP(ResMLP)의 모든 은닉층에 결합하는 딥 좌표 융합을 채택한다.
고주파 디테일의 전파를 촉진하고 저주파 누출을 억제하기 위해 잔차 연결(ResMLP)을 사용한다.
LR 피처 맵에서 얻은 v_r와 정규화된 좌표 차이 delta x, phi(delta x)를 이용해 s = f_theta(v_r, delta x, phi(delta x))인 암묵적 이미지 함수를 구성한다.
Upsampling 계층이 없는 인코더(EDSR 또는 RDN)를 적용하여 LR 영역에서 HR 픽셀을 렌더링하도록 엔드 투 엔드로 학습한다.
바이큐빅 다운샘플링된 LR 입력, 보셀 단위 렌더링 대상 및 L1 손실로 학습하며 Adam 옵티마이저와 단계적 학습률 감소를 사용한다.

실험 결과

연구 질문

RQ1공간 인코딩이 LIIF와 같은 이전 방법에 비해 암묵적 함수 기반 임의 스케일 SR의 품질을 크게 향상시키는가?
RQ2좌표 융합과 잔차 MLP와 같은 아키텍처 선택이 공간 인코딩과 상호 작용하여 고주파 디테일 재구성에 어떤 영향을 미치는가?
RQ3공간 인코딩 차원과 주기적 기저의 정량적 영향이 스케일과 데이터셋 전반의 SR 성능에 어떤 변화를 주는가?
RQ4UltraSR이 DIV2K 및 다수의 스케일에 걸친 표준 SR 벤치마크에서 최첨단 PSNR을 달성할 수 있는가?

주요 결과

	×2	×3	×4	×6	×12	×18	×24	×30
Bicubic	31.01	28.22	26.66	24.82	22.27	21.00	20.19	19.59
EDSR-baseline	34.55	30.90	28.92	–	–	–	–	–
MetaSR-EDSR	34.64	30.93	28.92	26.61	23.55	22.03	21.06	20.37
LIIF-EDSR	34.67	30.96	29.00	26.75	23.71	22.17	21.18	20.48
UltraSR-EDSR	34.69	31.02	29.05	26.81	23.75	22.21	21.21	20.51
MetaSR-RDN	35.00	31.27	29.25	26.88	23.73	22.18	21.17	20.47
LIIF-RDN	34.99	31.26	29.27	26.99	23.89	22.34	21.31	20.59
UltraSR-RDN	35.00	31.30	29.32	27.03	23.93	22.36	21.33	20.61

UltraSR은 EDSR 및 RDN 인코더 모두에 대해 DIV2K 스케일 전반에서 LIIF와 MetaSR를 지속적으로 능가한다.
좌표 융합을 통한 공간 인코딩은 일부 스케일에서 최대 약 0.05 dB의 PSNR 향상과 극단적 스케일에서의 구조적 왜곡 감소를 가져온다.
잔차 연결이 있는 ResMLP는 이 암묵적 함수 SR 설정에서 일반 MLP보다 고주파 디테일 회복에 더 우수하다.
소거 연구는 공간 인코딩만으로는 충분하지 않음을 보여주며 좌표 융합 및 잔차 연결과의 결합이 최상의 성능을 낸다.
다섯 개 표준 데이터셋(Set5, Set14, B100, Urban100, Manga109)에서 UltraSR-RDN 및 UltraSR-EDSR은 LIIF 및 RDN을 대부분의 보고 항목에서 능가하며 특히 더 큰 데이터셋과 스케일에서 두드러진 성과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.