QUICK REVIEW

[論文レビュー] Learning Feature Pyramids for Human Pose Estimation

Wei Yang, Shuang Li|arXiv (Cornell University)|Aug 3, 2017

Human Pose and Action Recognition参考文献 54被引用数 62

ひとこと要約

DCNN内で特徴ピラミッドを学習するためのPyramid Residual Modules (PRMs)を提案し、MPIIおよびLSPベンチマークで最先端の姿勢推定を達成するとともに、多分岐ネットワークの理論的初期化と残差の分散制御を提供します。

ABSTRACT

Articulated human pose estimation is a fundamental yet challenging task in computer vision. The difficulty is particularly pronounced in scale variations of human body parts when camera view changes or severe foreshortening happens. Although pyramid methods are widely used to handle scale changes at inference time, learning feature pyramids in deep convolutional neural networks (DCNNs) is still not well explored. In this work, we design a Pyramid Residual Module (PRMs) to enhance the invariance in scales of DCNNs. Given input features, the PRMs learn convolutional filters on various scales of input features, which are obtained with different subsampling ratios in a multi-branch network. Moreover, we observe that it is inappropriate to adopt existing methods to initialize the weights of multi-branch networks, which achieve superior performance than plain networks in many tasks recently. Therefore, we provide theoretic derivation to extend the current weight initialization scheme to multi-branch network structures. We investigate our method on two standard benchmarks for human pose estimation. Our approach obtains state-of-the-art results on both benchmarks. Code is available at https://github.com/bearpaw/PyraNet.

研究の動機と目的

関節運動のある人間の姿勢推定におけるスケール変動と短縮（foreshortening）に対応する。
DCNNでマルチスケール特徴ピラミッドを学習するためのPyramid Residual Moduleを提案する。
マルチブランチネットワークの初期化スキームを理論に基づいて提供する。
Hourglass/ResNet風アーキテクチャにおける活性化分散の増大を緩和する。
アブレーションを用いてMPIIとLSPで最先端の性能を示す。

提案手法

入力特徴を複数解像度で処理してマルチスケールの特徴ピラミッドを学習するPyramid Residual Module (PRM)を設計する。
ピラミッドレベル間で制御されたサブサンプリング比を用いた分数最大プーリングで入力特徴ピラミッドを生成する。
積み重ねたHourglassネットワークにPRMsを組み込み、単一スケールの残差ユニットを置換する。
マルチブランチネットワークへの重み初期化を拡張し、前方/後方伝播を安定させるための分散ベースのスケーリングを導出する。
スキップ接続での1x1畳み込み + BN + ReLUを置換して、恒等マッピングによる出力分散の蓄積を特定・緩和する。
MPIIとLSP、およびCIFAR-10で広範な実験を行い、PRMのバリアント、ピラミッドスケール、初期化のアブレーションを行う。

実験結果

リサーチクエスチョン

RQ1PRMを介してDCNN内で特徴ピラミッドを学習することは、人間の姿勢推定におけるスケール不変性を改善しますか？
RQ2PRMsやHourglass様のアーキテクチャで前方/後方の分散を維持するよう、マルチブランチネットワークの重みはどのように初期化すべきですか？
RQ3残差和における活性化分散を制御することは、積み重ねられたHourglassネットワークの最適化と性能を向上させますか？
RQ4MPIIおよびLSPでの姿勢推定精度に対するピラミッドスケールの選択の影響は何ですか？
RQ5PRMは姿勢推定以外のタスク（例：CIFAR-10）にも一般化しますか？

主な発見

Method	Head	Sho.	Elb.	Wri.	Hip	Knee	Ank.	Mean
Pishchulin et al. [41]	74.3	49.0	40.8	34.1	36.5	34.4	35.2	44.1
Tompson et al. [52]	95.8	90.3	80.5	74.3	77.6	69.7	62.8	79.6
Carreira et al. [8]	95.7	91.7	81.7	72.4	82.8	73.2	66.4	81.3
Tompson et al. [51]	96.1	91.9	83.9	77.8	80.9	72.3	64.8	82.0
Hu&Ramanan [28]	95.0	91.6	83.0	76.6	81.9	74.5	69.5	82.4
Pishchulin et al. [42]	94.1	90.2	83.4	77.3	82.6	75.7	68.6	82.4
Lifshitz et al. [35]	97.8	93.3	85.7	80.4	85.3	76.6	70.2	85.0
Gkioxari et al. [20]	96.2	93.1	86.7	82.1	85.2	81.4	74.1	86.1
Rafi et al. [43]	97.2	93.9	86.4	81.3	86.8	80.6	73.4	86.3
Insafutdinov et al. [29]	96.8	95.2	89.3	84.4	88.4	83.4	78.0	88.5
Wei et al. [55]	97.8	95.0	88.7	84.0	88.4	82.8	79.4	88.5
Bulat & Tzimiropoulos [5]	97.9	95.1	89.9	85.3	89.4	85.7	81.7	89.7
Newell et al. [39]	98.2	96.3	91.2	87.1	90.1	87.4	83.6	90.9
Ours-A	98.4	96.5	91.9	88.2	91.1	88.6	85.3	91.8
Ours-B	98.5	96.7	92.5	88.7	91.1	88.6	86.0	92.0

PRMsはベースラインを上回る姿勢推定精度を示し、MPIIで閾値0.5のPCKh@0.5が92.0%を達成（Ours-B）および92.0%（Ours-B）
LSPでは、PRMsにより平均PCK@0.2が従来手法より93.9%へ改善。
ピラミッドスケールを増やすと一般に性能が向上し、4〜5スケールで顕著な利得がある。
特殊なマルチブランチ初期化スキームは、収束と最終精度の点でXavierやMSRを上回る。
分散の説明では恒等写像が活性化分散を増幅することが示され、スキップ接続をBN-ReLU-Convブロックに置換することで訓練を安定化し結果を改善。
CIFAR-10の実験では、PRM強化版のWide ResNetおよびResNeXtアーキテクチャが競争力のあるまたは優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。