QUICK REVIEW

[논문 리뷰] Flow-Guided Sparse Transformer for Video Deblurring

Jing Lin, Yuanhao Cai|arXiv (Cornell University)|2022. 01. 06.

Advanced Image Processing Techniques인용 수 22

한 줄 요약

FGST는 흐름 가이드가 적용된 희소 윈도우 기반 트랜스포머와 순환 임베딩을 통해 비디오 블러를 제거하며, DVD 및 GOPRO 데이터셋에서 SOTA를 능가합니다.

ABSTRACT

Exploiting similar and sharper scene patches in spatio-temporal neighborhoods is critical for video deblurring. However, CNN-based methods show limitations in capturing long-range dependencies and modeling non-local self-similarity. In this paper, we propose a novel framework, Flow-Guided Sparse Transformer (FGST), for video deblurring. In FGST, we customize a self-attention module, Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). For each $query$ element on the blurry reference frame, FGSW-MSA enjoys the guidance of the estimated optical flow to globally sample spatially sparse yet highly related $key$ elements corresponding to the same scene patch in neighboring frames. Besides, we present a Recurrent Embedding (RE) mechanism to transfer information from past frames and strengthen long-range temporal dependencies. Comprehensive experiments demonstrate that our proposed FGST outperforms state-of-the-art (SOTA) methods on both DVD and GOPRO datasets and even yields more visually pleasing results in real video deblurring. Code and pre-trained models are publicly available at https://github.com/linjing7/VR-Baseline

연구 동기 및 목표

장거리 공간 의존성과 비국소 자기유사성을 활용하는 것을 비디오 디블러링의 동기로 삼는다.
흐름 가이드 어텐션을 도입하여 CNN/표준 Transformer의 한계를 극복한다.
순환 임베딩 메커니즘을 통해 장거리 시계열 의존성을 포착한다.
모션 신호를 활용하면서 원래 이미지 정보를 보존하여 견고한 디블러링을 실현한다.
DVD 및 GOPRO 벤치마크에서 SOTA 성능을 시연한다.

제안 방법

Flow-Guided Sparse Transformer (FGST)와 Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA)를 제안한다.
광학 흐름을 사용해 각 쿼리에 대해 인접 프레임에서 핵심 요소의 샘플링을 안내하고, 전역적으로 희소하지만 매우 관련성 높은 어텐션을 가능하게 한다.
Flow-Guided Multi-head Self-Attention (FGS-MSA)와 흐름 불완전성에 대한 로버스트를 위한 윈도우 기반 확장인 FGSW-MSA를 도입한다.
과거 프레이의 정보를 전파하고 장거리 시계열 의존성을 모델링하기 위한 Recurrent Embedding (RE) 메커니즘을 통합한다.
FGABs(FGST Attention Blocks)와 스킵 연결을 갖춘 U-Net과 같은 인코더–병목–디코더 아키텍처를 채용한다.
FGSW-MSA를 통해 토큰 수에 대해 거의 선형 복잡도 달성으로 계산 효율성을 유지한다.

실험 결과

연구 질문

RQ1Flow-guided attention 메커니즘이 비디오 디블러링에서 비국소 자기유사성을 효과적으로 포착할 수 있는가?
RQ2광학 흐름에 의해 가이드되는 핵심 요소 샘플링이 모션에 대한 강건성을 개선하고 기존 프리 워핑에 비해 인공물을 감소시키는가?
RQ3순환 임베딩 메커니즘이 Transformer 기반 디블러링 모델에서 장거리 시계열 의존성을 향상시키는가?
RQ4FGST가 표준 벤치마크(DVD 및 GOPRO)에서 품질과 효율성 측면에서 최첨단 방법과 어떻게 비교되는가?
RQ5윈도우 크기, 흐름 추정기, 어텐션 변형의 성능에 대한 영향은 무엇인가?

주요 결과

FGST는 DVD 및 GOPRO 데이터셋에서 최첨단 방법을 능가한다.
DVD에서 FGST는 PSNR에서 이전 최고치 ARVo를 0.56 dB 상회한다.
GOPRO에서 FGST는 Suin 등보다 0.80 dB, TSP보다 1.23 dB PSNR을 초과한다.
RE와 FGSW-MSA를 함께 사용할 때 PSNR 증가가 크게 나타나는 경우가 많아(최대 약 1.72 dB), 두 기여가 공동으로 큰 이득을 준다.
FGST는 빠른 모션 흐림의 복원에서 유사하지만 정렬이 어긋난 패치에 더 강한 주의를 기울여 성능을 향상시킨다.
FGST는 여러 CNN 기반 및 Transformer 기반 기준선 대비 매개변수 및 FLOPS를 크게 줄이면서 PSNR/SSIM이 더 높은 경향을 보이며 효율적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.