Skip to main content
QUICK REVIEW

[논문 리뷰] VRT: A Video Restoration Transformer

Jingyun Liang, Jiezhang Cao|arXiv (Cornell University)|2022. 01. 28.
Advanced Image Processing Techniques인용 수 82
한 줄 요약

VRT는 긴 범위 시간 의존성을 시간 상호 자기 주의와 병렬 왜곡을 통해 모델링하는 병렬 다중 스케일 비디오 복원 트랜스포머로, LQ 시퀀스로부터 HQ 프레임을 복원합니다. 이는 다수의 비디오 복원 작업에서 성능을 향상시킵니다.

ABSTRACT

Video restoration (e.g., video super-resolution) aims to restore high-quality frames from low-quality frames. Different from single image restoration, video restoration generally requires to utilize temporal information from multiple adjacent but usually misaligned video frames. Existing deep methods generally tackle with this by exploiting a sliding window strategy or a recurrent architecture, which either is restricted by frame-by-frame restoration or lacks long-range modelling ability. In this paper, we propose a Video Restoration Transformer (VRT) with parallel frame prediction and long-range temporal dependency modelling abilities. More specifically, VRT is composed of multiple scales, each of which consists of two kinds of modules: temporal mutual self attention (TMSA) and parallel warping. TMSA divides the video into small clips, on which mutual attention is applied for joint motion estimation, feature alignment and feature fusion, while self attention is used for feature extraction. To enable cross-clip interactions, the video sequence is shifted for every other layer. Besides, parallel warping is used to further fuse information from neighboring frames by parallel feature warping. Experimental results on five tasks, including video super-resolution, video deblurring, video denoising, video frame interpolation and space-time video super-resolution, demonstrate that VRT outperforms the state-of-the-art methods by large margins ($ extbf{up to 2.16dB}$) on fourteen benchmark datasets.

연구 동기 및 목표

  • 슬라이딩 윈도우 및 순환 방식의 한계를 넘어 긴 범위 시간 의존성 활용을 통해 비디오 복원을 개선하려는 동기 부여.
  • 다중 프레임에서 특징을 공동으로 추출, 정렬 및 융합하는 병렬 다중 스케일 프레임워크를 제안합니다.
  • 암시적 모션 추정 및 프레임 간 특징 융합을 위한 상호 주의(attention) 개발.
  • 시퀀스 시프트를 통한 크로스 클립 상호 작용으로 시간 모델링을 강화합니다.
  • 다양한 비디오 복원 작업에서 최신 성능을 입증합니다.

제안 방법

  • 각 스케일에 Temporal Mutual Self Attention(TMSA)와 Parallel Warping 모듈이 포함된 다중 스케일 VRT를 도입합니다.
  • 상호 주의(attention)를 사용하여 참조 프레임과 보조 프레임 간의 공동 정렬 및 융합을 수행하고, 이를 소프트 워핑 메커니즘으로 작동시킵니다.
  • 시퀀스를 2프레임 클립으로 분할하고 병렬 처리하며, 레이어를 시프트하여 크로스 클립 간 상호 작용을 가능하게 하여 TMSA를 적용합니다.
  • 각 스케일 말단에서 병렬 워핑을 도입해 흐름 가이드 변형 정합을 통해 이웃 프레임 정보를 융합합니다.
  • Charbonnier 손실로 학습하고, 얕은 특성과 깊은 특성의 잔차 학습으로 HQ 프레임을 재구성합니다.
  • 긴 시퀀스에 대해 프레임을 병렬로 처리하여 확장 가능한 시간 모델링 및 배치를 가능하게 합니다.

실험 결과

연구 질문

  • RQ1슬라이딩 윈도우와 순환 아키텍처를 넘어선 긴 범위 시간 모델링이 비디오 복원에 어떤 이점을 제공하는가?
  • RQ2다중 스케일에서 프레임 다중 특징을 공동으로 추출, 정렬, 융합하는 트랜스포머 기반 프레임워크가 효과적인가?
  • RQ3상호 주의가 명시적 광학 흐름 ground truth 없이도 적응적이고 견고한 모션 추정 및 특징 워핑을 가능하게 하는가?
  • RQ4SR, 흐림 보정, 잡음 제거, 프레임 보간, 시공간 SR를 포함한 다양한 비디오 복원 작업에서 VRT의 성능은 어떠한가?

주요 결과

  • VRT는 다수의 비디오 복원 작업에서 최신 성능을 달성하였고 벤치마크 데이터셋에서 최대 2.16 dB의 이득을 보여줍니다.
  • 슬라이딩 윈도우 및 순환 방법과 비교하여, VRT는 병렬 처리와 긴 범위 시간 의존성 모델링을 지원합니다.
  • 상호 주의는 프레임 정렬 및 융합을 위한 명시적 모션 워핑의 소프트적 대안을 제공합니다.
  • VRT는 다수의 데이터셋에서 비디오 SR, 흐림 보정, 잡음 제거, 프레임 보간 및 시공간 SR에서 강한 결과를 보여줍니다.
  • 다중 스케일 아키텍처와 TMSA 및 병렬 워핑을 사용함으로써 매개변수 효율과 런타임 특성이 경쟁력 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.