QUICK REVIEW

[论文解读] Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

Dan Xu, Wanli Ouyang|arXiv (Cornell University)|Apr 8, 2017

Video Surveillance and Tracking Methods参考文献 55被引用 23

一句话总结

该论文提出了一种跨模态深度学习框架，利用RGB与热成像图像对，在无需热成像域行人标注的情况下，学习鲁棒且光照不变的特征，以实现行人检测。通过无监督方式训练区域重建网络（RRN）将RGB特征映射到热成像特征，并将这些表征迁移至基于RGB的多尺度检测网络（MDN），该方法在KAIST数据集上达到最先进性能，在Caltech数据集上也取得具有竞争力的结果，推理阶段仅需RGB输入。

ABSTRACT

This paper presents a novel method for detecting pedestrians under adverse illumination conditions. Our approach relies on a novel cross-modality learning framework and it is based on two main phases. First, given a multimodal dataset, a deep convolutional network is employed to learn a non-linear mapping, modeling the relations between RGB and thermal data. Then, the learned feature representations are transferred to a second deep network, which receives as input an RGB image and outputs the detection results. In this way, features which are both discriminative and robust to bad illumination conditions are learned. Importantly, at test time, only the second pipeline is considered and no thermal data are required. Our extensive evaluation demonstrates that the proposed approach outperforms the state-of- the-art on the challenging KAIST multispectral pedestrian dataset and it is competitive with previous methods on the popular Caltech dataset.

研究动机与目标

解决在光照不良条件下行人检测的挑战，因为仅使用RGB的方法常因阴影、光照不足或背景杂乱而失效。
通过开发一种无需热成像模态中行人边界框标注的无监督跨模态学习方法，克服大规模、多模态、标注数据集稀缺的问题。
通过确保推理阶段仅需RGB数据，实现真实世界监控和机器人系统中的部署，降低硬件成本。
通过在预训练阶段利用热成像数据作为自监督信号，提升对杆状物或树木等困难负样本的特征判别能力。

提出的方法

训练一个区域重建网络（RRN），即一个深度卷积自编码器，以无监督方式从对应RGB图像重建热成像图像，学习模态间的非线性映射。
使用预训练的RRN初始化一个多尺度检测网络（MDN），并在RGB图像上微调该网络，以实现基于多尺度特征提取的行人检测。
将RRN中学习到的跨模态表征知识迁移至MDN，使检测网络能够学习对光照变化具有鲁棒性的特征。
利用热成像数据仅在训练阶段使用，使最终检测器在推理阶段可仅基于RGB输入运行。
通过ACF（边缘框）生成区域提议，并在RGB数据上使用标准检测损失函数端到端训练MDN。
利用来自监控系统的大型、未标注的RGB-热成像图像对预训练模型，最大限度减少对昂贵人工标注数据的依赖。

实验结果

研究问题

RQ1从RGB与热成像图像对中进行无监督跨模态学习，能否提升在弱光条件下行人检测的鲁棒性？
RQ2从热成像模态预训练网络中迁移的知识，能在多大程度上提升在仅使用RGB的测试数据上的检测性能？
RQ3所提出的方法是否在KAIST和Caltech等基准数据集上，特别是在具有挑战性的光照场景下，优于现有的最先进RGB-only行人检测器？
RQ4该框架是否可在无需热成像域行人标注的情况下有效应用，从而减轻标注负担？
RQ5性能提升是源于跨模态表征学习，还是仅仅由于模型集成或数据增强？

主要发现

在Caltech-All数据集上，该方法实现了64.01%的漏检率，创下新的最先进结果。
在KAIST多光谱行人检测数据集上，该方法优于所有先前的最先进方法，展现出在恶劣光照条件下的卓越鲁棒性。
在Caltech-Reasonable数据集上，该方法实现了10.69%的漏检率，与现有最佳方法具有竞争力。
跨模态预训练带来的性能增益显著，尤其在低光照条件下，热成像数据提供了关键的监督信号。
该方法计算效率高，推理阶段单张图像处理时间为0.59秒，与先前最先进方法相比具有竞争力。
消融实验证实，性能增益源于跨模态特征学习，而非数据洗牌或批量大小变化；不同批量大小下的性能均低于所提出的CMT-CNN。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。