[论文解读] Where2comm: Communication-Efficient Collaborative Perception via Spatial Confidence Maps
Where2comm 引入空间置信度图,以实现针对感知关键的稀疏通信,提升协同感知的感知性能,在不同带宽和跨数据集的多轮场景中实现更优的感知。
Multi-agent collaborative perception could significantly upgrade the perception performance by enabling agents to share complementary information with each other through communication. It inevitably results in a fundamental trade-off between perception performance and communication bandwidth. To tackle this bottleneck issue, we propose a spatial confidence map, which reflects the spatial heterogeneity of perceptual information. It empowers agents to only share spatially sparse, yet perceptually critical information, contributing to where to communicate. Based on this novel spatial confidence map, we propose Where2comm, a communication-efficient collaborative perception framework. Where2comm has two distinct advantages: i) it considers pragmatic compression and uses less communication to achieve higher perception performance by focusing on perceptually critical areas; and ii) it can handle varying communication bandwidth by dynamically adjusting spatial areas involved in communication. To evaluate Where2comm, we consider 3D object detection in both real-world and simulation scenarios with two modalities (camera/LiDAR) and two agent types (cars/drones) on four datasets: OPV2V, V2X-Sim, DAIR-V2X, and our original CoPerception-UAVs. Where2comm consistently outperforms previous methods; for example, it achieves more than $100,000 imes$ lower communication volume and still outperforms DiscoNet and V2X-ViT on OPV2V. Our code is available at https://github.com/MediaBrain-SJTU/where2comm.
研究动机与目标
- 激励并解决多智能体协同感知中感知性能与通信带宽之间的权衡。
- 提出一种空间置信度图,用于识别需要沟通的感知上关键的空间区域。
- 建立一个框架,使得通信稀疏、带宽自适应、鲁棒融合以提升三维目标检测。
- 展示在多模态(摄像头/激光雷达)、多种代理类型(汽车/无人机)和多数据集上的有效性。
提出的方法
- 从鸟瞰视角 BEV 特征图生成空间置信度图,以指示每个智能体感知关键的区域。
- 将信息打包为稀疏特征图加请求图,实现在仅对关键区域进行选择性通信。
- 基于信息重叠和代理需求构建稀疏连接的通信图,用以指导谁与谁通信。
- 通过具空间感知的变换器对每个位置的多头注意力进行加权融合接收的稀疏信息,并辅以传感器位置编码。
- 通过跨轮次求和检测损失进行多轮监督,并使用课程学习来处理不同带宽和轮次的情况。
实验结果
研究问题
- RQ1如何利用感知信息的空间异质性在不牺牲感知性能的前提下降低通信成本?
- RQ2是否可以学习“在哪里通信”和“与谁通信”以适应不同的带宽和轮次?
- RQ3基于空间置信度引导的通信在现实与仿真的多智能体场景下是否能提升三维目标检测?
主要发现
- Where2comm 在四个数据集、多模态和多种代理类型上实现了优越的感知-带宽权衡。
- 在 OPV2V 上,尽管通信量显著降低(例如低至 10万倍),却超越 DiscoNet 和 V2X-ViT。
- 随着额外通信轮次的增加,性能提升增大,在 CoPerception-UAVs、OPV2V 和 V2X-Sim 上均表现出鲁棒的改进。
- 该方法对定位噪声具有较强鲁棒性,在各种高斯定位扰动下优于现有最优SOTA。
- 消融研究验证多头注意力、传感器位置编码和空间置信度图在改进融合方面的价值。
- 定性可视化展示通过稀疏但关键的共享信息成功检测遮挡对象。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。