[论文解读] Semantic Pose using Deep Networks Trained on Synthetic RGB-D
本论文提出一种深度卷积神经网络(CNN),在合成生成的RGB-D场景上进行训练,以在杂乱的室内环境中联合预测物体类别、3D姿态和位置。通过利用实时生成的合成数据以及在真实RGB-D数据上的迁移学习,该模型在语义姿态估计任务中达到最先进性能,能够泛化到未见过的家具模型,并在GPU上实现每场景数秒内的实时推理。
In this work we address the problem of indoor scene understanding from RGB-D images. Specifically, we propose to find instances of common furniture classes, their spatial extent, and their pose with respect to generalized class models. To accomplish this, we use a deep, wide, multi-output convolutional neural network (CNN) that predicts class, pose, and location of possible objects simultaneously. To overcome the lack of large annotated RGB-D training sets (especially those with pose), we use an on-the-fly rendering pipeline that generates realistic cluttered room scenes in parallel to training. We then perform transfer learning on the relatively small amount of publicly available annotated RGB-D data, and find that our model is able to successfully annotate even highly challenging real scenes. Importantly, our trained network is able to understand noisy and sparse observations of highly cluttered scenes with a remarkable degree of accuracy, inferring class and pose from a very limited set of cues. Additionally, our neural network is only moderately deep and computes class, pose and position in tandem, so the overall run-time is significantly faster than existing methods, estimating all output parameters simultaneously in parallel on a GPU in seconds.
研究动机与目标
- 利用RGB-D数据实现对杂乱室内场景的鲁棒语义理解。
- 解决带有姿态标注的大规模RGB-D数据集稀缺的问题。
- 开发一个单一的深度CNN,联合预测物体类别、3D姿态与空间位置。
- 实现对训练集中未出现过的未见家具模型的零样本泛化能力。
- 通过从合成数据迁移学习,在真实世界RGB-D数据上实现单GPU上的实时推理。
提出的方法
- 在随机物体放置的合成渲染RGB-D场景上,端到端训练一个宽深层、多输出的CNN。
- 使用CPU和训练期间的辅助GPU上的程序化渲染流水线,实时生成合成训练数据。
- 通过将类别预测重新组合回姿态与位置分支,提升联合估计的准确性。
- 应用非极大值抑制(NMS)和逐像素最大池化,将检测输出整合为语义热力图与姿态对齐的3D模型。
- 利用少量真实标注的RGB-D图像进行迁移学习,将合成训练的模型适配到真实世界模态。
- 姿态估计采用角度区间上的软最大化直方图,通过峰值周围插值以优化连续姿态预测。
实验结果
研究问题
- RQ1仅在合成RGB-D数据上训练的深度CNN能否泛化到具有复杂杂乱性的现实世界室内场景?
- RQ2此类模型能否在未见家具模型上仍以高精度联合预测物体类别、3D姿态与空间范围?
- RQ3从合成数据到真实RGB-D数据的迁移学习在语义姿态估计任务中效果如何?
- RQ4该模型能否在单个GPU上实现实时推理,同时在具有挑战性的场景中保持高精度?
- RQ5在杂乱环境中,引入3D几何特征(法线)是否能提升相比仅使用2D RGB方法的性能?
主要发现
- 该模型在NYUv2数据集上的姿态估计任务中达到最先进性能,在五个类别(床、椅子、书桌、沙发、桌子)上优于先前工作。
- 该模型可泛化至未见家具模型,通过在未在训练集中出现的测试椅子上实现准确的姿态估计得到验证。
- 姿态估计精度通过15°误差范围内的归一化曲线下面积(AUC)衡量,该模型在两个类别上的AUC高于先前的SOTA方法。
- 网络可在单次前向传播中处理完整场景,并在GPU上完成所有输出(类别、姿态、位置)的推理,耗时仅数秒。
- 仅使用少量真实标注数据进行迁移学习,显著提升了真实场景下的性能,尽管存在域差距。
- 系统生成可靠的语义热力图并正确放置通用3D模型,表明对真实观测中噪声与稀疏性的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。