QUICK REVIEW

[논문 리뷰] Towards Accurate Multi-person Pose Estimation in the Wild

George Papandreou, Tyler Zhu|arXiv (Cornell University)|2017. 01. 06.

Human Pose and Action Recognition참고 문헌 42인용 수 76

한 줄 요약

두 단계의 상향식(top-down) 시스템으로 Faster-RCNN을 사용해 사람 바운딩 박스를 얻고, 이후 CNN 기반 포즈 추정기가 17개 키포인트에 대한 히트맵과 오프셋을 예측하며, OKS 기반 NMS 및 포즈 기반 재스코어링으로 COCO 키포인트에서 최첨단 성능을 달성합니다.

ABSTRACT

We propose a method for multi-person detection and 2-D pose estimation that achieves state-of-art results on the challenging COCO keypoints task. It is a simple, yet powerful, top-down approach consisting of two stages. In the first stage, we predict the location and scale of boxes which are likely to contain people; for this we use the Faster RCNN detector. In the second stage, we estimate the keypoints of the person potentially contained in each proposed bounding box. For each keypoint type we predict dense heatmaps and offsets using a fully convolutional ResNet. To combine these outputs we introduce a novel aggregation procedure to obtain highly localized keypoint predictions. We also use a novel form of keypoint-based Non-Maximum-Suppression (NMS), instead of the cruder box-level NMS, and a novel form of keypoint-based confidence score estimation, instead of box-level scoring. Trained on COCO data alone, our final system achieves average precision of 0.649 on the COCO test-dev set and the 0.643 test-standard sets, outperforming the winner of the 2016 COCO keypoints challenge and other recent state-of-art. Further, by using additional in-house labeled data we obtain an even higher average precision of 0.685 on the test-dev set and 0.673 on the test-standard set, more than 5% absolute improvement compared to the previous best performing method on the same dataset.

연구 동기 및 목표

제약 없는 이미지(‘야생’)에서 인체 위치가 제공되지 않는 다중 인체 포즈 추정을 다룬다.
감지와 포즈 추정을 결합한 강건한 두 단계 파이프라인을 개발한다.
키포인트 기반 점수 부여와 OKS 기반 비최대 억제으로 최종 순위를 개선한다.

제안 방법

Stage 1: Faster-RCNN을 ResNet-101 백본(atrous conv)과 함께 사용하여 인체 바운딩 박스를 감지한다.
Stage 2: 제안된 각 박스에 대해 자르고 완전 컨볼루션 ResNet을 통해 각 키포인트 히트맵과 2-D 오프셋(K=17 키포인트)을 예측한다.
히트맵 h_k(x_i)와 오프셋 F_k(x_i)를 예측하고 디스크 기반 투표 방식으로 f_k를 얻어 정밀한 키포인트 위치를 추정한다.
오프셋에 대해 Hubner 손실을 사용하고 중간 계층에서 보조 손실을 두어 훈련을 안정화하는 결합된 히트맵 및 오프셋 손실로 학습한다.
포즈 제안마다 포즈 기반 점수: score(I) = (1/K) sum_k max_x_i f_k(x_i)로 재스코어링한다.
OKS 기반 NMS(OKS-NMS)를 포즈 레벨에서 적용하여 가깝게 위치한 사람들을 더 잘 분리한다.

실험 결과

연구 질문

RQ1탐지 + 포즈 추정이라는 상향식의 두 단계 파이프라인이 야생에서의 다중 인체 포즈 추정에서 하향식(bottom-up) 접근법을 능가할 수 있는가?
RQ2히트맵+오프셋 표현과 Hough-유사 투표가 혼잡한 장면에서 키포인트 위치 정확도에 어떤 영향을 주는가?
RQ3포즈 기반 재스코어링과 OKS 기반 NMS가 상자 기반 점수 매김 및 IoU NMS에 비해 COCO 키포인트 지표를 개선하는가?
RQ4훈련 데이터의 차이(COCO만 vs COCO+사내 데이터)와 백본/자르기 크기가 COCO 키포인트 AP에 미치는 영향은 무엇인가?
RQ5다양한 박스 감지기와 포즈 추정기가 전체 성능에 어떤 영향을 주는가?

주요 결과

평균 정밀도(AP)	평균 정밀도(AP) .5	평균 정밀도(AP) .75	평균 정밀도(AP) (M)	평균 정밀도(AP) (L)	평균 재현율(AR)	평균 재현율(AR) .5	평균 재현율(AR) .75	평균 재현율(AR) (M)	평균 재현율(AR) (L)
CMU-Pose [8]	0.618	0.849	0.675	0.571	0.682	0.665	0.872	0.718	0.606	0.746
Mask-RCNN [21]	0.631	0.873	0.687	0.578	0.714	-	-	-	-	-
G-RMI (ours): COCO-only	0.649	0.855	0.713	0.623	0.700	0.697	0.887	0.755	0.644	0.771
G-RMI (ours): COCO+int	0.685	0.871	0.755	0.658	0.733	0.733	0.901	0.795	0.681	0.804
AP	AP .5	AP .75	AP (M)	AP (L)	AR	AR .5	AR .75	AR (M)	AR (L)
CMU-Pose [8]	0.611	0.844	0.667	0.558	0.684	0.665	0.872	0.718	0.602	0.749
G-RMI (ours): COCO-only	0.643	0.846	0.704	0.614	0.696	0.698	0.885	0.755	0.644	0.771
G-RMI (ours): COCO+int	0.673	0.854	0.735	0.642	0.726	0.730	0.898	0.789	0.675	0.805

COCO test-dev에서 COCO만으로 학습하면 AP 0.649, test-standard AP 0.643으로 2016 챌린지 우승자 및 Mask R-CNN 변형보다 우수하다.
추가적인 내부 라벨 데이터가 있으면 AP가 0.685(test-dev) 및 0.673(test-standard)로 향상된다.
OKS-NMS와 포즈 기반 재스코어링은 박스 기반 랭킹 및 표준 IoU NMS에 비해 AP를 크게 향상시킨다.
ablation 연구는 더 강한 박스 감지기와 더 높은 해상도의 포즈 크롭(ResNet-101, 353x257)이 더 높은 AP를 낸다는 것을 보여준다(COCO+int 및 353x257에서 0.685).
COCO+int 데이터로 학습된 포즈 추정기가 COCO만에 비해 상당한 이득을 제공한다(test-standard에서 AP 최대 0.673까지).
단일 규모(one-scale) 평가에서 단일 CNN으로 감지하고 단일 CNN으로 포즈 추정하는 것이 이미 최첨단 성능을 달성하며, 다중 규모/앙상블은 추가 이득을 가져올 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.