[论文解读] se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains
se(3)-TrackNet 提出了一种数据驱动的6D姿态跟踪方法,通过结合合成数据与领域随机化,并引入一种基于李代数的残差姿态网络,在真实RGB-D图像上实现了鲁棒且实时的跟踪(90.9 Hz),即使仅在合成数据上进行训练且在严重遮挡下无需重新初始化,其性能仍优于当前最先进方法。
Tracking the 6D pose of objects in video sequences is important for robot manipulation. This task, however, introduces multiple challenges: (i) robot manipulation involves significant occlusions; (ii) data and annotations are troublesome and difficult to collect for 6D poses, which complicates machine learning solutions, and (iii) incremental error drift often accumulates in long term tracking to necessitate re-initialization of the object's pose. This work proposes a data-driven optimization approach for long-term, 6D pose tracking. It aims to identify the optimal relative pose given the current RGB-D observation and a synthetic image conditioned on the previous best estimate and the object's model. The key contribution in this context is a novel neural network architecture, which appropriately disentangles the feature encoding to help reduce domain shift, and an effective 3D orientation representation via Lie Algebra. Consequently, even when the network is trained only with synthetic data can work effectively over real images. Comprehensive experiments over benchmarks - existing ones as well as a new dataset with significant occlusions related to object manipulation - show that the proposed approach achieves consistently robust estimates and outperforms alternatives, even though they have been trained with real images. The approach is also the most computationally efficient among the alternatives and achieves a tracking frequency of 90.9Hz.
研究动机与目标
- 解决在遮挡和真实世界训练数据有限条件下,机器人操作中长期6D物体姿态跟踪的挑战。
- 通过解耦特征编码与基于李代数的3D方向表示,减少合成图像与真实图像之间的域差距。
- 实现在纯合成数据上的有效训练,结合领域随机化,消除对昂贵真实世界数据采集与标注的需求。
- 构建一个新的基准数据集(YCBInEOAT),包含显著遮挡与多样化的机器人操作场景,用于6D姿态跟踪评估。
- 在极端物体重定向与部分遮挡条件下,实现高速、高精度且稳定的跟踪,无需重新初始化。
提出的方法
- 提出一种新型神经网络架构 se(3)-TrackNet,用于预测当前RGB-D观测与前一估计姿态下物体合成渲染图之间的相对位姿。
- 采用李代数(se(3))表示3D方向与平移残差,通过可微损失函数实现对连续位姿变换的有效学习。
- 采用解耦特征编码,分离外观特征与几何特征,以减少域差距并提升模拟到真实场景的泛化能力。
- 仅在合成数据上进行训练,并结合领域随机化,包括随机光照、纹理与相机参数,以增强对真实世界变化的鲁棒性。
- 通过共享编码器与残差连接,融合RGB与深度模态特征,以捕捉外观与几何的一致性。
- 损失函数结合se(3)李代数参数的L2损失与形状匹配损失,以提升姿态精度与稳定性。
实验结果
研究问题
- RQ1仅在合成数据上训练的6D姿态跟踪网络是否能有效泛化到真实RGB-D图像,而无需领域自适应或真实数据微调?
- RQ2与标准四元数或旋转矩阵表示相比,基于李代数的残差姿态表示在跟踪精度与收敛性方面有何提升?
- RQ3特征解耦在多大程度上减少了域差距,并改善了6D物体姿态跟踪中的模拟到真实迁移性能?
- RQ4在机器人操作中常见的大范围遮挡与物体突变重定向条件下,所提方法能否保持高精度与稳定性?
- RQ5在速度、精度与重新初始化鲁棒性方面,该方法与当前最先进方法相比表现如何?
主要发现
- 在YCB-Video基准上,se(3)-TrackNet在ADD指标上达到93.05%的成功率,在ADD-S指标上达到95.71%,优于所有基线方法,包括在真实数据上训练的模型。
- 该方法运行速度达90.9 Hz,显著快于现有方法,可支持机器人操作系统的实时应用。
- 在包含复杂遮挡与真空夹爪操作的新基准YCBInEOAT上,se(3)-TrackNet在ADD-S上达到94.44%,展现出在极端条件下的鲁棒性。
- 消融实验表明,若移除深度模态,ADD指标性能降至75.65%,凸显多模态输入对精度的重要性。
- 与使用四元数的基线相比,采用李代数表示与解耦特征编码使ADD-S指标提升3.8%。
- 定性结果(图1与图6)表明,即使在完全遮挡后,该方法仍能保持高性能,无需重新初始化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。