[论文解读] Flow-Guided Sparse Transformer for Video Deblurring
FGST 引入了一种流引导的稀疏窗口型变换器,配备循环嵌入以去模糊视频,在 DVD 和 GOPRO 数据集上超越最先进方法(SOTA)。
Exploiting similar and sharper scene patches in spatio-temporal neighborhoods is critical for video deblurring. However, CNN-based methods show limitations in capturing long-range dependencies and modeling non-local self-similarity. In this paper, we propose a novel framework, Flow-Guided Sparse Transformer (FGST), for video deblurring. In FGST, we customize a self-attention module, Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). For each $query$ element on the blurry reference frame, FGSW-MSA enjoys the guidance of the estimated optical flow to globally sample spatially sparse yet highly related $key$ elements corresponding to the same scene patch in neighboring frames. Besides, we present a Recurrent Embedding (RE) mechanism to transfer information from past frames and strengthen long-range temporal dependencies. Comprehensive experiments demonstrate that our proposed FGST outperforms state-of-the-art (SOTA) methods on both DVD and GOPRO datasets and even yields more visually pleasing results in real video deblurring. Code and pre-trained models are publicly available at https://github.com/linjing7/VR-Baseline
研究动机与目标
- 将视频去模糊的动机归因于利用长程空间依赖和非局部自相似性。
- 通过引入流引导的注意力来克服 CNN/标准 Transformer 的局限性。
- 通过循环嵌入机制捕捉长程时序依赖。
- 在利用运动线索实现鲁棒去模糊的同时保留原始图像信息。
- 在 DVD 和 GOPRO 基准测试中展示最先进的性能。
提出的方法
- 提出 Flow-Guided Sparse Transformer (FGST),配备 Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA)。
- 使用光流引导在每个查询中跨邻近帧采样关键元素,从而实现全局稀疏但高度相关的注意力。
- 引入 Flow-Guided Multi-head Self-Attention (FGS-MSA) 及其窗基扩展 FGSW-MSA,以提高对光流不准确性的鲁棒性。
- 整合 Recurrent Embedding (RE) 机制以从过去帧传播信息并建模长程时序依赖。
- 采用类似 U-Net 的编码器–瓶颈–解码器架构,配备 FGABs(FGST Attention Blocks)和跳跃连接。
- 通过 FGSW-MSA 实现对令牌数量的近线性复杂度,从而保持计算效率。
实验结果
研究问题
- RQ1流引导的注意力机制能够有效捕捉视频去模糊中的非局部自相似性吗?
- RQ2以光流引导采样关键元素是否能提高对运动的鲁棒性并降低伪影,与传统预变形相比?
- RQ3循环嵌入机制是否在基于 Transformer 的去模糊模型中增强了长程时序依赖?
- RQ4在质量和效率方面,FGST 与标准基准(DVD 和 GOPRO)的最先进方法相比如何?
- RQ5窗口大小、光流估计器和注意力变体对性能的影响是什么?
主要发现
- FGST 在 DVD 和 GOPRO 数据集上超越了最先进方法。
- 在 DVD 上,FGST 在 PSNR 上比此前最佳 ARVo 高出 0.56 dB。
- 在 GOPRO 上,FGST 在 PSNR 上较 Suin 等人高出 0.80 dB,且较 TSP 高出 1.23 dB。
- 消融研究显示 RE 与 FGSW-MSA 的联合贡献带来较大 PSNR 增益(两者同时使用时约达到 1.72 dB)。
- 配备 FGSW-MSA 的 FGST 相较基线对相似但错位的补丁具有更强的注意力,有助于更好地还原快速运动模糊。
- FGST 展现出较优的效率,在参数和 FLOPS 显著降低的同时,取得比若干 CNN 基线和 Transformer 基线更高的 PSNR/SSIM。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。