[论文解读] Pushing the Limits of Asynchronous Graph-based Object Detection with Event Cameras
本文引入一个可扩展的高效异步图神经网络,用于事件基对象检测,在显著增加深度和容量的同时减少每事件计算,在 Gen1 和 N-Caltech101 上达到最先进的准确性,MFLOPS 远低于现有方法。
State-of-the-art machine-learning methods for event cameras treat events as dense representations and process them with conventional deep neural networks. Thus, they fail to maintain the sparsity and asynchronous nature of event data, thereby imposing significant computation and latency constraints on downstream systems. A recent line of work tackles this issue by modeling events as spatiotemporally evolving graphs that can be efficiently and asynchronously processed using graph neural networks. These works showed impressive computation reductions, yet their accuracy is still limited by the small scale and shallow depth of their network, both of which are required to reduce computation. In this work, we break this glass ceiling by introducing several architecture choices which allow us to scale the depth and complexity of such models while maintaining low computation. On object detection tasks, our smallest model shows up to 3.7 times lower computation, while outperforming state-of-the-art asynchronous methods by 7.4 mAP. Even when scaling to larger model sizes, we are 13% more efficient than state-of-the-art while outperforming it by 11.5 mAP. As a result, our method runs 3.7 times faster than a dense graph neural network, taking only 8.4 ms per forward pass. This opens the door to efficient, and accurate object detection in edge-case scenarios.
研究动机与目标
- 通过实现更深、更高容量的模型来解决事件相机异步 GNN 的效率差距,同时不牺牲速度。
- 提出架构和计算技巧(剪枝、早期时间聚合、LUT-Spline 卷积、定向事件图)以在提高准确性的同时维持低每事件成本。
- 开发并评估多种检测器规模(nano、small、medium、large),以展示在各个工作区间的可扩展性和效率。
- 与 Gen1 和 N-Caltech101 数据集上的最先进稠密和稀疏异步方法进行对比,以确立性能与效率提升。
提出的方法
- 将事件表示为最多可达 5 万节点的有向时空图。
- 将 Look-up-Table Spline Convolutions (LUT-SCs) 作为核心信息传递算子。
- 通过最大池化引入早期时间聚合,以实现快速信息融合并支持 LUT-SC 的部署。
- 通过池化、位置量化和特征变化来引入节点更新剪枝,以跳过不必要的计算(最多可减少 73%)。
- 在输入端部署定向事件图(DEGs),以在尽量低成本的前提下稳定并提升性能。
- 设计一个受 YOLOX 启发的多尺度检测头,在图输出上生成边界框和类别分数。
实验结果
研究问题
- RQ1如何在事件摄像机的异步图网络中扩展深度和容量,同时不使计算量急剧上升?
- RQ2哪些架构改动(如剪枝、早期聚合、LUT-SCs、DEGs)在准确性与效率之间提供最佳权衡?
- RQ3基于异步 GNN 的检测器能否与标准事件数据集上的密集与循环、最先进方法竞争?
- RQ4模型规模(nano 到 large)对 Gen1 和 N-Caltech101 的 mAP 与 MFLOPS/ev 的影响是多少?
主要发现
| Method | Async. | Gen1 mAP | Gen1 MFLOPS/ev | N-Caltech101 mAP | N-Caltech101 MFLOPS/ev |
|---|---|---|---|---|---|
| Inception+SSD [21] | ✗ | 30.1 | > 8’245* | - | - |
| Events+RRC [6] | ✗ | 30.7 | > 21’758 | - | - |
| MatrixLSTM+YOLOv3 [5] | ✗ | 31.0 | > 34’519* | - | - |
| Events+YOLOv3 [24] | ✗ | 31.2 | > 34’518* | - | - |
| RED [38] | ✗ | 40.0 | 4’712 | - | - |
| ASTM-Net [26] | ✗ | 46.7 | > 21’758* | - | - |
| NVS-S [27] | ✓ | 8.60 | 7.80 | 34.6 | 7.80 |
| AsyNet [32] | ✓ | 14.5 | 205 | 64.3 | 200 |
| AEGNN [45] | ✓ | 16.3 | 5.26 | 59.5 | 7.41 |
| Spiking DenseNet [7] | ✓ | 18.9 | N/A | - | - |
| YOLE [4] | ✓ | - | - | 39.8 | 3682 |
| EAGR-N (ours) | ✓ | 26.3 | 1.36 | 62.9 | 2.28 |
| EAGR (ours) | ✓ | 30.4 | 4.58 | 70.2 | 6.85 |
| EAGR-M (ours) | ✓ | 31.8 | 9.94 | 72.7 | 12.2 |
| EAGR-L (ours) | ✓ | 32.1 | 17.4 | 73.2 | 18.9 |
- 小模型在 Gen1 上实现最高 3.7x 的计算降低,同时以 7.4 的 mAP 超越异步基线。
- 中等模型比最有效的前方法高 13% 的效率,同时在 mAP 上超越它 11.5 点。
- 大模型在 Gen1 上达到 32.1 的 mAP,在 N-Caltech101 上达到 73.2 的 mAP,优于所有密集方法和其他稀疏方法。
- 异步处理比密集 GNN 快 3.7 倍(每次前向 8.4 ms)。
- 消融实验表明:通过最大池化和早期聚合进行剪枝可将 MFLOPS/ev 降至低至 4.58,而 mAP 的损失可以忽略;相较于天真样条卷积实现,LUT-SC 将计算量降低约 4.5x。
- 定向事件图提供了适度的 mAP 提升(1.8 mAP),计算成本较低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。