[论文解读] MobilePose: Real-Time Pose Estimation for Unseen Objects with Weak Shape Supervision
MobilePose 提出两种轻量级、实时的神经网络——MobilePose-Base 和 MobilePose-Shape——用于在移动设备上从 RGB 图像中对未见过的物体进行 3D 姿态估计。通过将弱形状监督(例如,分割图和坐标图)作为中间特征学习步骤,该模型在无需 CAD 模型或深度传感器的情况下提升了姿态估计的准确性,在移动设备上实现了 36 FPS 的推理速度,且模型大小仅为先前单阶段方法的 2–3%。
In this paper, we address the problem of detecting unseen objects from RGB images and estimating their poses in 3D. We propose two mobile friendly networks: MobilePose-Base and MobilePose-Shape. The former is used when there is only pose supervision, and the latter is for the case when shape supervision is available, even a weak one. We revisit shape features used in previous methods, including segmentation and coordinate map. We explain when and why pixel-level shape supervision can improve pose estimation. Consequently, we add shape prediction as an intermediate layer in the MobilePose-Shape, and let the network learn pose from shape. Our models are trained on mixed real and synthetic data, with weak and noisy shape supervision. They are ultra lightweight that can run in real-time on modern mobile devices (e.g. 36 FPS on Galaxy S20). Comparing with previous single-shot solutions, our method has higher accuracy, while using a significantly smaller model (2~3% in model size or number of parameters).
研究动机与目标
- 在不事先了解物体身份的情况下,实现在移动设备上从 RGB 图像中对未见过物体进行实时 3D 姿态估计。
- 研究弱监督形状特征(如分割图、坐标图)如何在低资源环境下提升姿态估计的准确性。
- 设计超轻量级网络,在移动硬件上实现 30+ FPS 的推理速度的同时保持高精度。
- 消除推理时对深度传感器或 CAD 模型的依赖,实现在标准智能手机上的部署。
- 通过仅使用 RGB 输入,展示端到端的移动设备部署,并支持增强现实和机器人等实际应用场景。
提出的方法
- 提出 MobilePose-Base,一种单阶段、无锚点的 3D 物体检测与姿态估计网络,具有极小的模型尺寸,适用于移动设备上的实时推理。
- 引入 MobilePose-Shape,将形状预测(分割图和坐标图)作为中间层插入网络,以引导从高分辨率特征中学习姿态。
- 使用带有弱且噪声形状监督的合成数据预训练形状特征,从而实现向真实图像的迁移。
- 采用基于 MobileNet 架构的轻量级编码器,并通过通道剪枝和块剪枝将模型大小减少约 50%,同时保持性能。
- 利用 TFLite 搭配 GPU 委派实现移动 GPU 上的高效推理,最大限度减少后处理开销。
- 采用可微分解码器,通过回归投影后的 3D 框顶点来估计 6D 姿态(旋转、平移、缩放)。
实验结果
研究问题
- RQ1当作为中间监督信号使用时,弱监督形状特征(如噪声分割图或坐标图)是否能提升 3D 姿态估计的准确性?
- RQ2与后处理阶段的形状预测相比,将形状预测集成到网络架构内部在多大程度上能提升对未见过物体的姿态估计性能?
- RQ3在合成数据上训练的超轻量级模型,在实时移动设备上对真实世界未见过的物体,其泛化能力如何?
- RQ4中间形状监督是否能在低分辨率特征图中实现更好的特征学习,从而在监督信息有限的情况下提升姿态估计的准确性?
- RQ5经过移动端优化的模型是否能在显著更小且更快的前提下,实现比先前单阶段方法更高的精度?
主要发现
- 在自定义的鞋子数据集上,MobilePose-Shape 的 0.5 3D IoU 下平均精度(AP)比 YOLO-Seg 和 YOLO-6D 高出 10%,且模型大小仅为 18MB。
- MobilePose-Base 在 Galaxy S20 上实现 36 FPS 的推理速度,模型大小为 16MB,其推理速度比先前的单阶段方法快 3–12 倍,参数量仅为后者的 2–3%。
- 在 Linemod 数据集上,MobilePose 实现 98.92% 的 REP-5px 和 42.70% 的 ADD-0.1d,两项指标均优于 YOLO-6D。
- 在遮挡数据集上,MobilePose 实现 95.9% 的 REP-5px 和 29.0% 的 ADD-0.1d,显著优于 YOLO-Seg 的 59.1% 和 12.1%。
- 尽管仅使用 50 双扫描鞋子进行坐标图监督和噪声分割标签,模型仍能通过从合成数据迁移学习,良好泛化到未见过的鞋子。
- 将形状特征作为中间层集成,相比后处理阶段的形状预测,能更有效地提升姿态估计性能,尤其在弱监督条件下表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。