QUICK REVIEW

[论文解读] OriNet: A Fully Convolutional Network for 3D Human Pose Estimation

Chenxu Luo, Xiao Chu|arXiv (Cornell University)|Nov 12, 2018

Human Pose and Action Recognition参考文献 18被引用 45

一句话总结

OriNet 提出了一种全卷积方法，通过对绑定于肢体区域的肢体方向进行建模，并联合预测 2D 关键点，从单张图像预测 3D 人体姿态，实现出色的泛化性以及对边界框误差的鲁棒性。

ABSTRACT

In this paper, we propose a fully convolutional network for 3D human pose estimation from monocular images. We use limb orientations as a new way to represent 3D poses and bind the orientation together with the bounding box of each limb region to better associate images and predictions. The 3D orientations are modeled jointly with 2D keypoint detections. Without additional constraints, this simple method can achieve good results on several large-scale benchmarks. Further experiments show that our method can generalize well to novel scenes and is robust to inaccurate bounding boxes.

研究动机与目标

在不严格裁切或固定尺度要求的前提下，推动从单张 RGB 图像进行鲁棒的 3D 姿态估计。
提出一种新的基于方向的肢体表示，以使姿态与骨长解耦并提升泛化能力。
在一个全卷积框架内，将肢体方向与 2D 关键点检测联合建模。
展示对不准确的边界框具有鲁棒性，并在标准基准上取得具竞争力或最先进的结果。

提出的方法

用其两个端点关节导出的单位方向向量来表示每条肢体。
通过围绕肢体段的边界框将每条肢体的方向绑定到一个近似的肢体区域，以保持与图像的空间关联。
对每条肢体使用一个方向图，其中肢体区域填充方向向量，背景为零；用 L_o = sum_k ||O_k - Ō_k||^2 进行训练。
与方向图并行预测 2D 关键点热力图；用 sigmoid 交叉熵损失 L_p 进行训练，并将损失组合为 L = L_o + λ L_p，其中 λ = 0.2。
采用堆叠式时钟骨架网络（5 层堆叠）作为骨干，以产生逐层预测；在各堆叠之间融合图像特征、关键点热力图和方向线索以细化预测。
推断：从热力图提取 2D 关键点，在方向图上裁剪肢体区域，区域内对方向取平均，并使用肢体方向、肢长比和尺度来恢复 3D 姿态。

实验结果

研究问题

RQ1绑定到肢体区域的肢体方向能否为单目图像的 3D 姿态估计提供稳健的表示？
RQ2在全卷积流水线中将肢体方向与 2D 关键点检测结合，是否能提升泛化性与对边界框误差的鲁棒性？
RQ3在 FCN 架构中，基于方向的预测与直接的骨长或关节点坐标回归相比如何？
RQ4OriNet 在不同数据集和新场景上的泛化性能如何？

主要发现

基于方向的表示具有尺度不变性，并在跨数据集和新场景上提升泛化性。
将肢体方向与肢体区域边界框耦合，保持空间关联并提升姿态推理。
该方法在 Human3.6M 和 MPI-INF-3DHP 数据集上达到具竞争力或最先进的结果，并对边界框抖动具有鲁棒性。
该方法对背景鲁棒，且对紧密裁切的主体依赖较小。
在消融实验中，使用方向在单层和多层配置下均优于骨长表示。
预测可在 Titan XP 上达到 20fps，展示了实际的效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。