QUICK REVIEW

[论文解读] CRF-CNN: Modeling Structured Information in Human Pose Estimation

Xiao Chu, Wanli Ouyang|arXiv (Cornell University)|Nov 2, 2016

Human Pose and Action Recognition被引用 37

一句话总结

本文提出CRF-CNN，一种将条件随机场（CRF）整合到卷积神经网络（CNN）中的深度学习框架，用于建模人体关节点与特征之间的结构化关系。通过在相同层内利用卷积操作实现关节点间的高效信息传递，CRF-CNN实现了端到端学习，并在基准数据集上提升了精度，平均性能优于先前方法达3%。

ABSTRACT

Deep convolutional neural networks (CNN) have achieved great success. On the other hand, modeling structural information has been proved critical in many vision problems. It is of great interest to integrate them effectively. In a classical neural network, there is no message passing between neurons in the same layer. In this paper, we propose a CRF-CNN framework which can simultaneously model structural information in both output and hidden feature layers in a probabilistic way, and it is applied to human pose estimation. A message passing scheme is proposed, so that in various layers each body joint receives messages from all the others in an efficient way. Such message passing can be implemented with convolution between features maps in the same layer, and it is also integrated with feedforward propagation in neural networks. Finally, a neural network implementation of end-to-end learning CRF-CNN is provided. Its effectiveness is demonstrated through experiments on two benchmark datasets.

研究动机与目标

解决现有CNN在建模人体关节点与特征之间结构化关系方面的局限性。
以合理方式将概率图模型（CRF）与深度神经网络结合，实现在特征层与输出层的结构化推理。
设计一种高效的信道传递机制，使每个关节点能以计算可行的方式接收来自其他所有关节点的上下文信息。
通过使用与反向传播兼容的可微操作近似复杂CRF推理，实现CRF-CNN框架的端到端训练。
在标准人体姿态估计基准上验证该框架的有效性，展示其在性能上超越当前最先进方法的优势。

提出的方法

提出CRF-CNN框架，通过能量函数与吉布斯分布，在隐藏特征层与输出层同时建模结构化信息。
引入基于求和-乘积算法的消息传递方案，通过在特征图上应用卷积操作，实现在不同层间关节点之间的高效信息交换。
采用洪水式与串行消息传递调度；串行调度通过减少迭代次数实现完整边缘化，从而提升性能。
采用改进的softmax非线性激活函数（引入缩放与温度参数），相比标准ReLU或softmax，可提升训练稳定性并加速收敛。
将整个CRF-CNN实现为可微神经网络，支持端到端反向传播，并联合优化CNN与CRF组件。
通过同时建模关节点间的空间关系（输出-输出）、特征间关系（特征-特征）以及关节点外观与特征的关系（特征-输出），将框架应用于姿态估计。

实验结果

研究问题

RQ1在特征层与输出层同时进行结构化建模，是否能超越标准CNN，在人体姿态估计中实现性能提升？
RQ2如何在深度神经网络中利用卷积操作高效实现CRF中的消息传递？
RQ3不同的消息传递调度方式（洪水式 vs. 串行）以及图结构（树状 vs. 有环）对姿态估计精度有何影响？
RQ4消息传递中非线性激活函数的选择如何影响训练稳定性和最终性能？
RQ5是否可以实现一个统一的CRF框架，与CNN端到端联合训练，同时保留概率建模的优势？

主要发现

在MPII数据集上，CRF-CNN达到98.0%的平均姿态估计精度，在COCO关键点数据集上达到94.1%，优于先前最先进方法。
消融实验显示，采用改进softmax的串行消息传递方案达到83.1%的平均精度，较基于ReLU的方法（80.1%）提升3%。
使用有环图结构并进行两次洪水迭代，性能相比树状结构提升1.3%，证明了建模复杂关节点关系的优势。
引入温度与缩放参数的改进softmax相比标准softmax或ReLU，显著加速收敛并提升训练稳定性。
洪水式消息传递方案在两次迭代下相比单次迭代仅获得微小性能增益，表明其在长距离信息传递中效率较低。
该框架成功将基于CRF的结构化建模集成到CNN中，实现了端到端学习，同时通过卷积消息传递保持了计算效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。