QUICK REVIEW

[论文解读] Siamese Regression Networks with Efficient mid-level Feature Extraction for 3D Object Pose Estimation

Andreas Doumanoglou, Vassileios Balntas|arXiv (Cornell University)|Jul 8, 2016

Human Pose and Action Recognition参考文献 22被引用 42

一句话总结

本文提出Siamese Regression Networks，一种端到端深度学习框架，通过一种新颖的损失函数在特征空间与姿态空间之间强制相似性，直接回归3D物体姿态角度。该方法学习到针对姿态估计优化的判别性特征，实现了最先进性能，包括在新创建的手-物体数据集上对严重遮挡的鲁棒性。

ABSTRACT

In this paper we tackle the problem of estimating the 3D pose of object instances, using convolutional neural networks. State of the art methods usually solve the challenging problem of regression in angle space indirectly, focusing on learning discriminative features that are later fed into a separate architecture for 3D pose estimation. In contrast, we propose an end-to-end learning framework for directly regressing object poses by exploiting Siamese Networks. For a given image pair, we enforce a similarity measure between the representation of the sample images in the feature and pose space respectively, that is shown to boost regression performance. Furthermore, we argue that our pose-guided feature learning using our Siamese Regression Network generates more discriminative features that outperform the state of the art. Last, our feature learning formulation provides the ability of learning features that can perform under severe occlusions, demonstrating high performance on our novel hand-object dataset.

研究动机与目标

为解决在角度空间中直接进行3D物体姿态回归的挑战，该挑战因局部极小值以及缺乏端到端学习框架而困难。
通过联合优化特征与姿态回归，利用Siamese架构提高3D姿态估计的特征判别性。
通过修改损失函数以处理部分物体可见性，提升对严重遮挡的鲁棒性，这是现实世界中的常见挑战。
在新创建的手-物体遮挡数据集上评估该方法，其中物体被人类手部显著遮挡。
通过端到端学习和任务特定的特征优化，在干净和遮挡设置下均超越现有最先进方法，特别是[25]。

提出的方法

该框架采用Siamese网络架构，处理两个图像输入，以在它们的特征表示与对应3D姿态目标之间强制相似性约束。
引入一种新颖的损失函数，最小化特征嵌入与姿态预测之间的距离，促进在特征空间与姿态空间中的对齐。
网络端到端训练以直接回归3D姿态，无需单独的特征提取或模板匹配阶段。
损失函数被修改以包含一个遮挡感知项，使网络能够学习对部分物体可见性具有鲁棒性的特征。
实验评估了特征归一化与批量构建，以优化回归性能。
该方法在LINEMOD基准和一个新创建的手-物体遮挡数据集上进行评估，并对特征大小和架构组件进行了消融研究。

实验结果

研究问题

RQ1Siamese网络架构能否被有效适配用于角度空间中的直接3D姿态回归，避免间接或两阶段方法？
RQ2在特征空间与姿态空间表示之间强制相似性，是否能产生更具判别性的特征，从而提高回归精度？
RQ3所提出的损失函数能否扩展以提升在严重遮挡（如由人类手部造成的遮挡）下的鲁棒性？
RQ4与先进行特征学习再进行最近邻匹配相比，特征与姿态的端到端学习在准确性和泛化能力方面表现如何？
RQ5在极端遮挡下，网络性能下降程度如何？合成遮挡数据是否能进一步提升鲁棒性？

主要发现

所提出的Siamese Regression Network在LINEMOD基准上实现了最先进性能，平均姿态误差为11.4°，优于[25]的13.2°。
在新创建的手-物体遮挡数据集上，该方法的平均姿态误差为11.8°，接近非遮挡LINEMOD数据的性能（14.5°），并优于基线方法[25]的13.2°。
端到端回归方法在更大遮挡数据集上显著优于最近邻基线，表明其具有更好的泛化能力并减少了过拟合。
特征大小实验表明，当特征数超过32后性能趋于稳定，与先前工作一致，但所提方法在所有大小下均实现了更优的精度。
在训练中引入合成遮挡图像可进一步降低姿态误差，证明了结合遮挡建模的数据增强方法的有效性。
该方法对遮挡表现出强鲁棒性，其在手-物体数据集上的性能已达到与非遮挡数据相当的水平，验证了遮挡感知损失的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。