[论文解读] Online Video Deblurring via Dynamic Temporal Blending Network
该论文提出了一种基于时空循环残差网络与动态时间混合机制的在线视频去模糊方法,可实现实时去模糊,适用于由相机抖动和物体运动引起的时空变化模糊。通过扩展感受野并实现自适应、输入相关的跨帧特征传播,该方法在保持高时空一致性的同时,实现了24 fps(VGA分辨率)的实时性能,且在PSNR和时间一致性方面优于当前最先进的批处理方法,尤其在具有强烈相机抖动和物体运动的复杂真实世界视频上表现更优。
State-of-the-art video deblurring methods are capable of removing non-uniform blur caused by unwanted camera shake and/or object motion in dynamic scenes. However, most existing methods are based on batch processing and thus need access to all recorded frames, rendering them computationally demanding and time consuming and thus limiting their practical use. In contrast, we propose an online (sequential) video deblurring method based on a spatio-temporal recurrent network that allows for real-time performance. In particular, we introduce a novel architecture which extends the receptive field while keeping the overall size of the network small to enable fast execution. In doing so, our network is able to remove even large blur caused by strong camera shake and/or fast moving objects. Furthermore, we propose a novel network layer that enforces temporal consistency between consecutive frames by dynamic temporal blending which compares and adaptively (at test time) shares features obtained at different time steps. We show the superiority of the proposed method in an extensive experimental evaluation.
研究动机与目标
- 解决批处理视频去模糊方法因需完整帧访问而计算成本过高、难以实现实时处理的局限性。
- 实现在相机抖动和物体运动导致的空间变化模糊条件下,对视频进行在线(顺序)去模糊。
- 开发一种轻量化、高效的深度学习架构,在不增加计算成本的前提下保持大感受野以处理大范围模糊。
- 通过一种新颖的动态混合机制,在推理时自适应调整,增强连续帧之间的时序一致性。
- 发布一个大规模高速视频数据集,用于训练和基准测试判别性视频去模糊模型。
提出的方法
- 提出一种时空循环残差网络(STRCNN),通过将上一时刻最后一层的特征激活递归反馈至下一时刻网络输入,实现时间维度上有效感受野的扩展,而无需增加模型大小。
- 引入一种动态时间混合(DTB)层,通过比较连续帧之间的特征表示,基于输入相关的相似性自适应地共享信息,从而提升时序一致性。
- 采用一种新颖的网络结构,通过时间维度上的特征累积实现长距离空间上下文建模,提升在大范围运动模糊下的性能表现。
- 使用大规模配对数据集进行端到端训练,其中包含由时间平均生成的合成模糊帧和对应的高速清晰帧。
- 结合残差学习与循环连接,以稳定训练过程并提升视频去模糊任务中的特征表示学习能力。
- 在训练过程中采用多尺度损失函数,以保留细节并减少去模糊输出中的伪影。
实验结果
研究问题
- RQ1基于深度学习的视频去模糊方法是否能在无需预先访问全部帧的在线(顺序)处理设置下实现实时性能?
- RQ2神经网络架构如何在保持低计算成本以实现实时推理的同时,维持大空间感受野以应对强运动模糊?
- RQ3在时间维度上采用动态、输入相关的特征混合,能在多大程度上提升时序一致性并减少去模糊视频序列中的闪烁现象?
- RQ4在具有复杂模糊模式的真实世界视频上,该方法与当前最先进的批处理去模糊方法在定量和定性指标上的表现如何比较?
- RQ5利用高速摄像机制的自监督数据生成策略,能否生成在真实世界模糊视频上具有良好泛化能力的逼真训练数据?
主要发现
- 所提出的STRCNN+DTB模型在25个真实世界视频的测试集上达到29.02 PSNR,优于当前最先进的方法,如Su等人[32](使用光流对齐时为28.81 dB)和Kim与Lee[18](27.42 dB),在客观图像质量方面表现更优。
- 该方法在标准NVIDIA GTX 1080 GPU上以约24帧每秒的速度处理VGA分辨率视频,适用于实时应用,而传统批处理方法处理类似HD视频需数万秒。
- 动态时间混合机制显著减少了时序伪影和闪烁现象,尤其在运动边界处效果明显;定性对比显示,仅使用STRCNN时在车窗等区域会产生明显错误,而STRCNN+DTB可有效纠正。
- 该模型在具有高噪声和编码伪影的YouTube视频上表现出强泛化能力,成功在复杂条件下恢复出清晰帧。
- 消融实验表明,动态混合层在不同输入帧数(3、5、7帧)下均持续提升PSNR,相比仅使用STRCNN,最高可提升0.35 dB。
- 在处理100帧HD视频时,该方法相比现有最快批处理方法(Su等人[32]的NOALIGN方法)实现1000倍加速,耗时约12.5秒,而次优方法需约21秒。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。