QUICK REVIEW

[论文解读] Heterogeneous Multi-task Learning for Human Pose Estimation with Deep Convolutional Neural Network

Sijin Li, Zhi-Qiang Liu|arXiv (Cornell University)|Jun 13, 2014

Human Pose and Action Recognition参考文献 23被引用 46

一句话总结

本文提出了一种异构多任务学习框架，通过联合回归人体姿态和滑动窗口人体部位检测，端到端训练深度卷积神经网络。通过在不同任务间共享特征，网络学习到更鲁棒且局部化的表征，实现在基准数据集上的最先进性能，同时表明中间层和高层神经元对特定人体部位具有选择性。

ABSTRACT

We propose an heterogeneous multi-task learning framework for human pose estimation from monocular image with deep convolutional neural network. In particular, we simultaneously learn a pose-joint regressor and a sliding-window body-part detector in a deep network architecture. We show that including the body-part detection task helps to regularize the network, directing it to converge to a good solution. We report competitive and state-of-art results on several data sets. We also empirically show that the learned neurons in the middle layer of our network are tuned to localized body parts.

研究动机与目标

改善从单目2D图像中的人体姿态估计，该任务因外观模糊性和自遮挡而具有挑战性。
通过引入正则化学习的辅助任务，解决在有限数据下训练深度网络的困难。
学习对姿态回归和人体部位检测均有益的共享、有意义的特征表征。
通过实证分析和可视化，研究深层神经元对局部人体部位形状的响应方式。

提出的方法

使用两个异构任务端到端训练深度卷积神经网络：关节点坐标回归和滑动窗口人体部位检测。
网络在两个任务间共享早期卷积层，实现共享特征学习，同时为回归和检测任务保留特定的头部结构。
检测任务被表述为每个滑动窗口的二分类问题，每个窗口预测特定人体部位是否存在。
使用回溯算法识别使中间层和高层神经元最大激活的输入图像区域。
通过平均每个特征图中激活最强烈的神经元对应的回溯补丁，进行特征可视化。
该框架利用多任务训练正则化姿态回归网络，提升泛化能力并收敛到更优的局部极小值。

实验结果

研究问题

RQ1联合训练姿态回归与人体部位检测是否能改善深度神经网络在人体姿态估计中的特征学习与泛化能力？
RQ2在异构多任务学习下训练的深度CNN中间层神经元是否对局部人体部位形状具有选择性？
RQ3将检测作为辅助任务如何影响姿态回归网络的性能与收敛性？
RQ4从深层网络回溯的激活模式能否揭示可解释的、与人体部位相关的特征？

主要发现

所提出的异构多任务学习框架在多个人体姿态估计基准上实现了具有竞争力且最先进水平的性能。
将人体部位检测作为辅助任务显著正则化了网络，带来更好的收敛性与测试数据上的泛化能力提升。
网络中间层和高层神经元被发现对局部人体部位模式（如头部、肩膀、手臂和颈部）具有选择性激活。
回溯补丁的可视化显示，中层特征（第2和第3卷积层）类似于人体部位检测器，对头部、颈部和四肢表现出清晰的模式。
高层特征（第3层）对特定人体部位在不同位置的响应表现出选择性，如左右肩膀和手臂，表明特征图中存在空间感知能力。
部分高层特征对上下文结构（如水平条带，例如门框）有响应，表明潜在的场景上下文整合能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。