Skip to main content
QUICK REVIEW

[论文解读] Seeing Glass: Joint Point Cloud and Depth Completion for Transparent Objects

Haoping Xu, Yi Ru Wang|arXiv (Cornell University)|Sep 30, 2021
Advanced Vision and Imaging被引用 25
一句话总结

TranspareNet 同时完成透明物体的点云和深度,利用深度扭曲在混乱场景中生成完整深度图,并引入带自动标注的 TODD 数据集。

ABSTRACT

The basis of many object manipulation algorithms is RGB-D input. Yet, commodity RGB-D sensors can only provide distorted depth maps for a wide range of transparent objects due light refraction and absorption. To tackle the perception challenges posed by transparent objects, we propose TranspareNet, a joint point cloud and depth completion method, with the ability to complete the depth of transparent objects in cluttered and complex scenes, even with partially filled fluid contents within the vessels. To address the shortcomings of existing transparent object data collection schemes in literature, we also propose an automated dataset creation workflow that consists of robot-controlled image collection and vision-based automatic annotation. Through this automated workflow, we created Toronto Transparent Objects Depth Dataset (TODD), which consists of nearly 15000 RGB-D images. Our experimental evaluation demonstrates that TranspareNet outperforms existing state-of-the-art depth completion methods on multiple datasets, including ClearGrasp, and that it also handles cluttered scenes when trained on TODD. Code and dataset will be released at https://www.pair.toronto.edu/TranspareNet/

研究动机与目标

  • 在机器人系统中,当 RGB-D 深度不可靠时,推动对透明物体的鲁棒感知。
  • 提出一个联合点云与深度完成的流水线,以恢复透明容器的完整深度。
  • 创建 TODD,一个大规模的真实透明物体深度数据集,具有针对 RGB-D 数据的自动标注。
  • 展示利用透明物体周围的深度扭曲可以提升后续深度完成和物体操作的鲁棒性。

提出的方法

  • 将每个透明物体的深度反投影为点云。
  • 应用点云完成网络(Gridding 层 + 3D CNN 编码-解码器 + Gridding 逆)来预测完成的点云。
  • 将完成的点云投影回深度域并与深度完成模块融合。
  • 使用带有 SPADE 归一化的编码器-解码器深度完成网络在对象掩模条件下对深度进行细化。
  • 融合 RGB 与稀疏深度分布以生成密集深度图;使用 Gridding Loss 和对数-L1 深度损失进行训练。
  • 提供自动化的数据集创建和标注流水线,使用机器人控制的图像采集和基于 AprilTags 的姿态对齐。

实验结果

研究问题

  • RQ1是否可以利用透明物体位置处的深度信息,而不是舍弃,以改进深度完成?
  • RQ2与现有方法相比,联合点云和深度完成的方法在混乱场景中的透明物体上是否能提升精度?
  • RQ3TODD 是否是一个可扩展、真实世界的用于在复杂场景中训练与评估透明物体感知的数据集?
  • RQ4TranspareNet 在已知对象与新对象以及混乱多对象设置下的表现如何?
  • RQ5PCC 与 DC 两个组件各自的贡献与它们的联合集成在深度完成中的作用是什么?

主要发现

  • TranspareNet 在透明物体基准测试(如 ClearGrasp)上优于最先进的深度完成方法。
  • 联合 PCC + DC 流水线相较单独使用 DC 在混乱场景中提升深度完成。
  • TODD 提供约 14.7k 张带有真实深度、实例分割和六自由度姿态的六个玻璃容器在不同背景下的 RGB-D 图像。
  • 自动化的 TODD 数据采集与标注流水线实现了在最少人工干预的情况下实现可扩展标注。
  • 在 TODD 上,TranspareNet 在多种对象数量(1–3)和混乱程度下对已知与新对象均表现出色。
  • 该方法验证了利用透明度引起的深度扭曲来生成粗略深度估计,从而辅助细化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。