[논문 리뷰] Recurrent Video Restoration Transformer with Guided Deformable Attention
이 논문은 RVRT를 제시하는데, 이는 지역 프레임 클립을 글로벌 순환 프레임워크 내에서 병렬로 처리하고 클립-대-클립 정렬을 위한 가이드드 변형 가능 주의(attention)를 사용하여 비디오 SR, 디블러링, 디노이징에서 상태-오브-더-아트 결과를 달성하는 순환 비디오 복원 트랜스포머이다.
Video restoration aims at restoring multiple high-quality frames from multiple low-quality frames. Existing video restoration methods generally fall into two extreme cases, i.e., they either restore all frames in parallel or restore the video frame by frame in a recurrent way, which would result in different merits and drawbacks. Typically, the former has the advantage of temporal information fusion. However, it suffers from large model size and intensive memory consumption; the latter has a relatively small model size as it shares parameters across frames; however, it lacks long-range dependency modeling ability and parallelizability. In this paper, we attempt to integrate the advantages of the two cases by proposing a recurrent video restoration transformer, namely RVRT. RVRT processes local neighboring frames in parallel within a globally recurrent framework which can achieve a good trade-off between model size, effectiveness, and efficiency. Specifically, RVRT divides the video into multiple clips and uses the previously inferred clip feature to estimate the subsequent clip feature. Within each clip, different frame features are jointly updated with implicit feature aggregation. Across different clips, the guided deformable attention is designed for clip-to-clip alignment, which predicts multiple relevant locations from the whole inferred clip and aggregates their features by the attention mechanism. Extensive experiments on video super-resolution, deblurring, and denoising show that the proposed RVRT achieves state-of-the-art performance on benchmark datasets with balanced model size, testing memory and runtime.
연구 동기 및 목표
- 병렬과 순환 비디오 복원의 이점을 결합해 성능, 모델 크기, 효율성의 균형을 이룬 방법을 제시한다.
- 글로벌 순환 프레임워크 내에서 이웃 프레임을 병렬로 처리하는 클립 기반 순환 트랜스포머를 개발한다.
- 프레임-대-프레임 또는 사후 융합 방식 대신 원-스테이지의 클립-대-클립 정렬 메커니즘을 설계한다.]
제안 방법
- RVRT를 도입하여 비디오를 고정 길이 클립으로 나누고 이전에 추정된 클립 피처를 사용해 각 클립의 피처를 다듬는다.
- 각 클립 내에서 수정된 잔차 Swin Transformer 블록으로 임의 피처를 암시적으로 집계하여 프레임 피처를 공동으로 업데이트한다.
- 가이드드 변형 가능 주의(GDA)를 제안해 optical flow에 의해 유도된 여러 관련 위치를 예측하고 동적 주의 가중치를 통해 피처를 집계함으로써 클립-대-클립 정렬을 수행한다.
- 광학 흐름 guided 선행 정렬과 샘플링 위치의 오프셋을 예측하는 CNN을 사용해 원 스테이지 비디오-투-비디오 정렬을 가능하게 한다.
- 계산량과 표현력을 균형 있게 맞추기 위한 GDA의 다중 헤드/다중 그룹 확장을 제공하고, 채널 상호 작용은 MLP와 잔차 연결을 통해 수행한다.
- 학습은 Charbonnier loss로 하고 SpyNet으로 초기화된 광학 흐름을 활용해 학습의 안정성을 높인다.]
실험 결과
연구 질문
- RQ1병렬 트랜스포머의 큰 메모리 사용 없이 시 temporal 정보를 효율적으로 융합할 수 있는가?
- RQ2순환 프레임워크 내에서 클립 수준의 병렬 처리가 장기적인 시간 의존성을 보존할 수 있는가?
- RQ3가이드드 변형 가능 주의가 비디오 복원 작업에서 효과적인 클립-대-클립 정렬을 가능하게 하는가?
주요 결과
- RVRT는 초해상, 디블러링, 디노이징에 대한 8개 벤치마크 데이터셋에서 비디오 복원 작업의 상태-오브-더-아트 성능을 달성한다.
- 대표적인 순환 모델 BasicVSR++와 비교하여 RVRT가 PSNR을 약 0.2–0.5 dB 개선한다.
- RVRT는 REDS4 및 Vid4에서 트랜스포머 기반 VRT보다 최대 약 0.36 dB(PSNR) 만큼 더 우수하다.
- RVRT는 여러 병렬 방법의 매개변수 수와 메모리의 절반 미만을 사용하고, 런타임을 최소 약 25% 이상 감소시킨다.
- 절삭 연구(ablation studies)에서 클립 길이 2가 최적의 점을 제공하며, optical-flow-guided 정렬 및 MLP 채널 상호 작용이 성능을 크게 향상시킨다.]
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.