QUICK REVIEW

[论文解读] End-to-End United Video Dehazing and Detection

Boyi Li, Xiulian Peng|arXiv (Cornell University)|Sep 12, 2017

Image Enhancement Techniques被引用 24

一句话总结

本文提出EVD-Net，这是首个基于CNN的端到端视频去雾网络，通过利用帧间的时间一致性来提升去雾效果。此外，还提出了EVDD-Net，一种统一的端到端流水线，联合训练视频去雾与目标检测，相比以往方法，在雾霾视频中实现了更准确且时间上更一致的检测结果。

ABSTRACT

The recent development of CNN-based image dehazing has revealed the effectiveness of end-to-end modeling. However, extending the idea to end-to-end video dehazing has not been explored yet. In this paper, we propose an End-to-End Video Dehazing Network (EVD-Net), to exploit the temporal consistency between consecutive video frames. A thorough study has been conducted over a number of structure options, to identify the best temporal fusion strategy. Furthermore, we build an End-to-End United Video Dehazing and Detection Network(EVDD-Net), which concatenates and jointly trains EVD-Net with a video object detection model. The resulting augmented end-to-end pipeline has demonstrated much more stable and accurate detection results in hazy video.

研究动机与目标

解决缺乏利用帧间时间一致性的端到端CNN视频去雾模型的问题。
通过在联合学习框架中将去雾作为预处理步骤，提升雾霾条件下视频目标检测的性能。
探究最优的时间融合策略，以在去雾质量和时间一致性之间取得平衡。
证明联合训练去雾与检测相比级联或独立训练，能带来更优的检测稳定性和准确性。
构建一个带有目标检测标注的合成雾霾视频数据集，以支持所提出的端到端流水线的训练与评估。

提出的方法

提出EVD-Net，一种完全端到端的视频去雾网络，通过使用改进的AOD-Net架构并引入时间建模，直接从雾霾输入回归出清晰视频帧。
评估三种时间融合策略——帧级、卷积核级和输出级融合，发现卷积核级融合（K-level）在性能与可解释性之间达到最佳平衡。
采用重新表述的物理去雾模型，引入可学习的K(x)参数，将透射率与大气光估计整合为单一可微模块。
通过将EVD-Net与基于Faster R-CNN的目标检测器串联，构建EVDD-Net，实现通过反向传播联合训练两个组件。
采用两步训练策略：首先固定去雾权重微调检测头，然后联合微调整个流水线。
利用估计的深度图，基于大气散射模型合成雾霾视频数据，从而在带有目标检测标签的真实雾霾视频序列上进行训练。

实验结果

研究问题

RQ1哪种时间融合策略（I-level、K-level、J-level）最能保持视频去雾中的去雾质量与时间一致性？
RQ2与级联或独立训练相比，端到端联合训练视频去雾与目标检测是否能提升雾霾视频中的检测准确率与时间稳定性？
RQ3所提出的EVDD-Net在雾霾视频上的性能与当前最先进的单图联合去雾与检测模型（如JAOD-Faster R-CNN）相比如何？
RQ4所提出的端到端视频去雾流水线在多帧连续图像中在多大程度上减少了目标检测的闪烁与伪影？
RQ5带有检测标注的合成雾霾视频数据集是否能有效支持端到端视频去雾与检测模型的训练与评估？

主要发现

在所有评估的时间融合策略中，EVD-Net实现了最令人满意的视觉效果、细节保留程度以及时间一致性，其中K-level融合被确定为最优方案。
在合成雾霾视频检测数据集（TestSet V2）上，EVDD-Net的平均精度均值（MAP）显著高于所有基线模型，包括JAOD-Faster R-CNN。
EVDD-Net产生了最稳定的时间一致性检测结果，在真实雾霾视频的四帧连续画面中，成功识别出全部四辆汽车，包括几乎不可见的最右侧车辆。
EVD-Net与检测头的联合训练相比仅将预训练的EVD-Net与Faster R-CNN堆叠，取得了更优的检测性能，证明了端到端优化的优势。
两步训练策略（先微调检测头，再进行端到端微调）相比直接端到端训练，显著提升了收敛速度与最终性能。
EVDD-Net在雾霾数据上微调后的Faster R-CNN表现更优，且超过原始Faster R-CNN，证实联合学习结合去雾能显著增强检测在退化条件下的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。