[论文解读] T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects
T-LESS 引入了一个新的 RGB-D 数据集,包含 39,000 张训练图像和 10,000 张测试图像,来自三个同步传感器(结构光、飞行时间、RGB),用于 30 种无纹理工业物体的 6D 姿态估计。该数据集包含复杂、杂乱的测试场景,存在遮挡和物体相似性问题,并提供精确的 CAD 和重建 3D 模型及真实姿态,揭示了当前最先进 6D 姿态估计方法在遮挡条件下仍有显著的改进空间。
We introduce T-LESS, a new public dataset for estimating the 6D pose, i.e. translation and rotation, of texture-less rigid objects. The dataset features thirty industry-relevant objects with no significant texture and no discriminative color or reflectance properties. The objects exhibit symmetries and mutual similarities in shape and/or size. Compared to other datasets, a unique property is that some of the objects are parts of others. The dataset includes training and test images that were captured with three synchronized sensors, specifically a structured-light and a time-of-flight RGB-D sensor and a high-resolution RGB camera. There are approximately 39K training and 10K test images from each sensor. Additionally, two types of 3D models are provided for each object, i.e. a manually created CAD model and a semi-automatically reconstructed one. Training images depict individual objects against a black background. Test images originate from twenty test scenes having varying complexity, which increases from simple scenes with several isolated objects to very challenging ones with multiple instances of several objects and with a high amount of clutter and occlusion. The images were captured from a systematically sampled view sphere around the object/scene, and are annotated with accurate ground truth 6D poses of all modeled objects. Initial evaluation results indicate that the state of the art in 6D object pose estimation has ample room for improvement, especially in difficult cases with significant occlusion. The T-LESS dataset is available online at cmp.felk.cvut.cz/t-less.
研究动机与目标
- 为解决缺乏显著视觉特征的无纹理、工业相关物体的 6D 姿态估计挑战。
- 提供一个具有真实感、复杂场景的基准数据集,包含遮挡、杂乱和物体相似性。
- 在具有部分可见性和对称或相似物体的挑战性条件下,支持 6D 姿态估计方法的评估。
- 通过多种传感器模态的真实姿态,支持最先进方法的系统性比较。
- 通过提供多样化的 3D 模型(CAD 和重建)以及大规模、系统采集的图像集合,促进基于 RGB-D 的 6D 姿态估计研究。
提出的方法
- 使用三个同步传感器采集数据:结构光(Primesense Carmine 1.09)、飞行时间(Microsoft Kinect v2)和高分辨率 RGB 相机(Canon IXUS 950 IS)。
- 从每个物体周围的视角球系统性地采样图像,生成约 39,000 张训练图像(孤立物体置于黑色背景)和约 10,000 张测试图像(包含多个物体、遮挡和杂乱的复杂场景)。
- 每个物体提供两种类型的 3D 模型:人工创建的 CAD 模型和从训练 RGB-D 数据半自动重建的模型。
- 所有训练和测试图像中的物体实例均通过多视角重建与对齐流程,精确标注了 6D 真实姿态。
- 姿态评估采用基于距离的误差度量:$ e = \mathrm{avg}_{\mathbf{x}_1 \in \mathcal{M}} \min_{\mathbf{x}_2 \in \mathcal{M}} \| \bar{\mathbf{R}}\mathbf{x}_1 + \bar{\mathbf{t}} - (\hat{\mathbf{R}}\mathbf{x}_2 + \hat{\mathbf{t}}) \|_2 $,正确性定义为 $ e \leq 0.1 \cdot d $,其中 $ d $ 为物体直径。
- 评估聚焦于至少 10% 的物体表面可见时的姿态召回率,以 Hodaň 等人 [24] 的方法作为基线。
实验结果
研究问题
- RQ1当前最先进的 6D 姿态估计方法在严重遮挡和杂乱场景下对无纹理物体的表现如何?
- RQ2不同传感器模态(结构光、飞行时间、RGB)在复杂场景中对姿态估计精度有何影响?
- RQ3物体相似性和对称性在多大程度上会降低 6D 姿态估计的性能?
- RQ4CAD 模型与半自动重建的 3D 模型在支持精确姿态估计方面效果如何?
- RQ5部分可见性对 6D 姿态估计方法召回率的影响是什么?
主要发现
- Hodaň 等人 [24] 提出的最先进方法在 T-LESS 数据集上的平均召回率为 67.2%,表明仍有显著的改进空间。
- 同一方法在 Hinterstoisser 等人 [20] 数据集上的召回率为 95.4%,凸显了由于遮挡和物体相似性,T-LESS 的难度更高。
- 视觉相似度高的物体(如物体 1 和 2,或 20–22)经常被混淆,导致召回率降低。
- 场景 20 包含大量相似物体和严重遮挡,是最具挑战性的场景,所有场景中召回率最低。
- 召回率随可见表面比例的增加而成比例提升,证实遮挡是主要挑战。
- 深度差异统计显示,重建模型与捕获深度的对齐略优于 CAD 模型,尽管两者均准确(平均绝对差异 < 5 mm)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。