[논문 리뷰] Flow-Guided Sparse Transformer for Video Deblurring
FGST는 흐름 가이드가 적용된 희소 윈도우 기반 트랜스포머와 순환 임베딩을 통해 비디오 블러를 제거하며, DVD 및 GOPRO 데이터셋에서 SOTA를 능가합니다.
Exploiting similar and sharper scene patches in spatio-temporal neighborhoods is critical for video deblurring. However, CNN-based methods show limitations in capturing long-range dependencies and modeling non-local self-similarity. In this paper, we propose a novel framework, Flow-Guided Sparse Transformer (FGST), for video deblurring. In FGST, we customize a self-attention module, Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). For each $query$ element on the blurry reference frame, FGSW-MSA enjoys the guidance of the estimated optical flow to globally sample spatially sparse yet highly related $key$ elements corresponding to the same scene patch in neighboring frames. Besides, we present a Recurrent Embedding (RE) mechanism to transfer information from past frames and strengthen long-range temporal dependencies. Comprehensive experiments demonstrate that our proposed FGST outperforms state-of-the-art (SOTA) methods on both DVD and GOPRO datasets and even yields more visually pleasing results in real video deblurring. Code and pre-trained models are publicly available at https://github.com/linjing7/VR-Baseline
연구 동기 및 목표
- 장거리 공간 의존성과 비국소 자기유사성을 활용하는 것을 비디오 디블러링의 동기로 삼는다.
- 흐름 가이드 어텐션을 도입하여 CNN/표준 Transformer의 한계를 극복한다.
- 순환 임베딩 메커니즘을 통해 장거리 시계열 의존성을 포착한다.
- 모션 신호를 활용하면서 원래 이미지 정보를 보존하여 견고한 디블러링을 실현한다.
- DVD 및 GOPRO 벤치마크에서 SOTA 성능을 시연한다.
제안 방법
- Flow-Guided Sparse Transformer (FGST)와 Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA)를 제안한다.
- 광학 흐름을 사용해 각 쿼리에 대해 인접 프레임에서 핵심 요소의 샘플링을 안내하고, 전역적으로 희소하지만 매우 관련성 높은 어텐션을 가능하게 한다.
- Flow-Guided Multi-head Self-Attention (FGS-MSA)와 흐름 불완전성에 대한 로버스트를 위한 윈도우 기반 확장인 FGSW-MSA를 도입한다.
- 과거 프레이의 정보를 전파하고 장거리 시계열 의존성을 모델링하기 위한 Recurrent Embedding (RE) 메커니즘을 통합한다.
- FGABs(FGST Attention Blocks)와 스킵 연결을 갖춘 U-Net과 같은 인코더–병목–디코더 아키텍처를 채용한다.
- FGSW-MSA를 통해 토큰 수에 대해 거의 선형 복잡도 달성으로 계산 효율성을 유지한다.
실험 결과
연구 질문
- RQ1Flow-guided attention 메커니즘이 비디오 디블러링에서 비국소 자기유사성을 효과적으로 포착할 수 있는가?
- RQ2광학 흐름에 의해 가이드되는 핵심 요소 샘플링이 모션에 대한 강건성을 개선하고 기존 프리 워핑에 비해 인공물을 감소시키는가?
- RQ3순환 임베딩 메커니즘이 Transformer 기반 디블러링 모델에서 장거리 시계열 의존성을 향상시키는가?
- RQ4FGST가 표준 벤치마크(DVD 및 GOPRO)에서 품질과 효율성 측면에서 최첨단 방법과 어떻게 비교되는가?
- RQ5윈도우 크기, 흐름 추정기, 어텐션 변형의 성능에 대한 영향은 무엇인가?
주요 결과
- FGST는 DVD 및 GOPRO 데이터셋에서 최첨단 방법을 능가한다.
- DVD에서 FGST는 PSNR에서 이전 최고치 ARVo를 0.56 dB 상회한다.
- GOPRO에서 FGST는 Suin 등보다 0.80 dB, TSP보다 1.23 dB PSNR을 초과한다.
- RE와 FGSW-MSA를 함께 사용할 때 PSNR 증가가 크게 나타나는 경우가 많아(최대 약 1.72 dB), 두 기여가 공동으로 큰 이득을 준다.
- FGST는 빠른 모션 흐림의 복원에서 유사하지만 정렬이 어긋난 패치에 더 강한 주의를 기울여 성능을 향상시킨다.
- FGST는 여러 CNN 기반 및 Transformer 기반 기준선 대비 매개변수 및 FLOPS를 크게 줄이면서 PSNR/SSIM이 더 높은 경향을 보이며 효율적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.