QUICK REVIEW

[논문 리뷰] Learning Feature Pyramids for Human Pose Estimation

Wei Yang, Shuang Li|arXiv (Cornell University)|2017. 08. 03.

Human Pose and Action Recognition참고 문헌 54인용 수 62

한 줄 요약

PRMs를 도입하여 DCNN 내에서 특징 피라미드를 학습하고, MPII와 LSP 벤치마크에서 자세 추정의 최첨단 성능을 달성하는 동시에 다중 분기 네트워크의 이니셜라이제이션 이론과 잔차에서의 분산 제어를 제공합니다.

ABSTRACT

Articulated human pose estimation is a fundamental yet challenging task in computer vision. The difficulty is particularly pronounced in scale variations of human body parts when camera view changes or severe foreshortening happens. Although pyramid methods are widely used to handle scale changes at inference time, learning feature pyramids in deep convolutional neural networks (DCNNs) is still not well explored. In this work, we design a Pyramid Residual Module (PRMs) to enhance the invariance in scales of DCNNs. Given input features, the PRMs learn convolutional filters on various scales of input features, which are obtained with different subsampling ratios in a multi-branch network. Moreover, we observe that it is inappropriate to adopt existing methods to initialize the weights of multi-branch networks, which achieve superior performance than plain networks in many tasks recently. Therefore, we provide theoretic derivation to extend the current weight initialization scheme to multi-branch network structures. We investigate our method on two standard benchmarks for human pose estimation. Our approach obtains state-of-the-art results on both benchmarks. Code is available at https://github.com/bearpaw/PyraNet.

연구 동기 및 목표

관절형 인간 자세 추정에서 규모 변화와 foreshortening에 대응한다.
DCNN에서 다중 스케일 특징 피라미드를 학습하기 위해 Pyramid Residual Module를 제안한다.
다중 분기 네트워크를 위한 이론 기반 초기화 스킴을 제공한다.
Hourglass/ResNet 유사 아키텍처에서 활성화 분산 증가를 완화한다.
ablation과 함께 MPII 및 LSP에서 최첨단 성능을 입증한다.

제안 방법

Pyramid Residual Module(PRM)를 설계하여 여러 해상도에서 입력 특징을 처리함으로써 다중 스케일 특징 피라미드를 학습한다.
피라미드 수준 간 제어된 subsampling 비율로 fractional max-pooling을 사용하여 입력 특징 피라미드를 생성한다.
Stacked Hourglass 네트워크에 PRM을 도입하여 단일 스케일 잔차 유닛을 대체한다.
다중 분기 네트워크에 대한 가중치 초기화를 확장하고 분산 기반 스케일링을 도출하여 안정적인 순전파/역전파를 유지한다.
residual 유닛의 아이덴티티 매핑에서 출력 분산 누적을 식별하고 이를 완화하기 위해 skip 연결을 1x1 conv + BN + ReLU로 대체한다.
PRM 변형, 피라미드 스케일 및 초기화에 대한 ablation을 포함하여 MPII 및 LSP, CIFAR-10에서 광범위한 실험을 수행한다.

실험 결과

연구 질문

RQ1PRMs를 통해 DCNN 내부에서 특징 피라미드를 학습하는 것이 사람 자세 추정의 규모 불변성을 향상시키는가?
RQ2PRMs 및 Hourglass 유사 아키텍처에서 순전파/역전파 분산을 유지하기 위해 다중 분기 네트워크의 가중치를 어떻게 초기화해야 하는가?
RQ3 잔차 합의 활성화 분산 제어가 스택형 Hourglass 네트워크의 최적화 및 성능을 개선하는가?
RQ4MPII 및 LSP에서 피라미드 스케일 선택이 자세 추정 정확도에 미치는 영향은 무엇인가?
RQ5PRM은 CIFAR-10과 같은 자세 추정 외의 다른 작업에 일반화되는가?

주요 결과

방법	머리	어깨	팔꿈치	손목	엉덩이	무릎	발목	평균
Pishchulin et al. [41]	74.3	49.0	40.8	34.1	36.5	34.4	35.2	44.1
Tompson et al. [52]	95.8	90.3	80.5	74.3	77.6	69.7	62.8	79.6
Carreira et al. [8]	95.7	91.7	81.7	72.4	82.8	73.2	66.4	81.3
Tompson et al. [51]	96.1	91.9	83.9	77.8	80.9	72.3	64.8	82.0
Hu&Ramanan [28]	95.0	91.6	83.0	76.6	81.9	74.5	69.5	82.4
Pishchulin et al. [42]	94.1	90.2	83.4	77.3	82.6	75.7	68.6	82.4
Lifshitz et al. [35]	97.8	93.3	85.7	80.4	85.3	76.6	70.2	85.0
Gkioxari et al. [20]	96.2	93.1	86.7	82.1	85.2	81.4	74.1	86.1
Rafi et al. [43]	97.2	93.9	86.4	81.3	86.8	80.6	73.4	86.3
Insafutdinov et al. [29]	96.8	95.2	89.3	84.4	88.4	83.4	78.0	88.5
Wei et al. [55]	97.8	95.0	88.7	84.0	88.4	82.8	79.4	88.5
Bulat & Tzimiropoulos [5]	97.9	95.1	89.9	85.3	89.4	85.7	81.7	89.7
Newell et al. [39]	98.2	96.3	91.2	87.1	90.1	87.4	83.6	90.9
Ours-A	98.4	96.5	91.9	88.2	91.1	88.6	85.3	91.8
Ours-B	98.5	96.7	92.5	88.7	91.1	88.6	86.0	92.0

PRM은 기본선보다 자세 추정 정확도를 향상시키며 MPII에서 PCKh@0.5의 최첨단 성능을 달성한다. (Ours-B) 92.0% 및 92.0%의 임계값 0.5에서.
LSP에서 PRM은 이전 방법보다 평균 PCK@0.2를 향상시켜 93.9%에 도달한다.
피라미드 스케일을 늘리는 것이 대체로 성능을 향상시키며, 네 개에서 다섯 스케일이 두드러진 이득을 제공한다.
전용 다중 분기 초기화 스킷이 Xavier 및 MSR보다 수렴 및 최종 정확도에서 우수하다.
분산 설명에 따르면 아이덴티티 매핑은 활성화 분산을 증폭시킬 수 있으며, skip 연결을 BN-ReLU-Conv 블록으로 대체하면 학습이 안정되고 결과가 개선된다.
CIFAR-10 실험에서 PRM 강화된 Wide ResNet 및 ResNeXt 아키텍처가 경쟁력 있거나 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.