QUICK REVIEW

[论文解读] Differentiating Objects by Motion: Joint Detection and Tracking of Small Flying Objects

Ryota Yoshihashi, Tu Tuan Trinh|arXiv (Cornell University)|Sep 14, 2017

Robotics and Sensor-Based Localization参考文献 48被引用 27

一句话总结

本文提出了一种循环相关网络（RCN），这是一种联合检测与跟踪框架，通过卷积LSTM利用多帧运动线索，以提升对视觉特征微弱的小型飞行物体的检测性能。通过在检测与跟踪之间共享表示，RCN在鸟类和无人机数据集上实现了最先进性能，优于单帧检测器和现有的基于运动的方法，在漏检率上实现了最高达4.3个百分点的一致性提升。

ABSTRACT

While generic object detection has achieved large improvements with rich feature hierarchies from deep nets, detecting small objects with poor visual cues remains challenging. Motion cues from multiple frames may be more informative for detecting such hard-to-distinguish objects in each frame. However, how to encode discriminative motion patterns, such as deformations and pose changes that characterize objects, has remained an open question. To learn them and thereby realize small object detection, we present a neural model called the Recurrent Correlational Network, where detection and tracking are jointly performed over a multi-frame representation learned through a single, trainable, and end-to-end network. A convolutional long short-term memory network is utilized for learning informative appearance change for detection, while learned representation is shared in tracking for enhancing its performance. In experiments with datasets containing images of scenes with small flying objects, such as birds and unmanned aerial vehicles, the proposed method yielded consistent improvements in detection performance over deep single-frame detectors and existing motion-based detectors. Furthermore, our network performs as well as state-of-the-art generic object trackers when it was evaluated as a tracker on the bird dataset.

研究动机与目标

解决在监控和无人机图像中检测视觉特征微弱的小型飞行物体的挑战。
探索如何学习运动模式（尤其是翅膀拍打等形变）以超越静态外观的检测性能。
通过共享的、受运动启发的表示，在单一端到端可训练网络中统一检测与跟踪，以增强两个任务。
证明联合学习结合循环运动建模可带来优于单帧或非循环多帧基线方法的检测性能。

提出的方法

该框架使用基于卷积LSTM的编码器，从视频序列中学习具有区分性的多帧表示，捕捉如翅膀拍打和目标形变等时间动态特征。
通过交叉相关层，利用共享表示将首帧的模板与后续帧中的搜索窗口进行匹配，以实现目标定位。
网络在单一端到端架构中整合检测与跟踪，其中检测器的输出通过共享特征引导并稳定跟踪器。
检测与跟踪之间共享的特征表示减少了参数量，并通过利用时间一致性提升了泛化能力。
模型在带有边界框标注的视频数据集上以完全监督的方式进行训练，使用标准的检测与跟踪损失函数。
超参数消融研究评估了卷积核大小、使用ConvGRU与ConvLSTM的对比，以及移除跟踪或循环组件的影响。

实验结果

研究问题

RQ1来自多帧视频的运动线索是否能显著提升对小型、视觉上不明显的飞行物体的检测？
RQ2通过共享表示实现的联合检测与跟踪，相较于独立或单帧方法，性能提升程度如何？
RQ3像ConvLSTM这样的循环网络在多大程度上能学习到如翅膀拍打等具有区分性的运动模式，以提升小型物体检测？
RQ4通过ConvLSTM实现的运动建模是否优于手工设计的运动特征或分数平均方法，带来更好的泛化能力？
RQ5在特定领域数据集上作为跟踪器评估时，联合检测与跟踪框架是否能超越最先进的一般性跟踪器？

主要发现

在鸟类数据集上，RCN实现了0.268的对数平均漏检率，相较于单帧基线（0.332）提升了7.6个百分点，其中最大提升来自移除循环组件。
与单帧基线相比，使用ConvLSTM和联合跟踪使漏检率降低了4.3个百分点，证明了运动建模的有效性。
最优的ConvLSTM卷积核大小为k=3，因为更大或更小的核均导致轻微性能下降（漏检率分别增加0.010和0.011）。
将ConvLSTM替换为ConvGRU导致性能轻微下降（漏检率增加+0.003），表明LSTM完整机制在此任务中更为有效。
移除循环组件或联合跟踪均导致显著性能下降（漏检率分别增加0.076和0.053），证实了时间建模与共享表示的重要性。
在鸟类数据集上作为跟踪器评估时，RCN优于基于手工特征的跟踪器（如GOTURN）和深度通用跟踪器（如SiamFC），展现出强大的跟踪泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。