Skip to main content
QUICK REVIEW

[논문 리뷰] Simple Baselines for Human Pose Estimation and Tracking

Bin Xiao, Haiping Wu|arXiv (Cornell University)|2018. 04. 17.
Human Pose and Action Recognition참고 문헌 23인용 수 118
한 줄 요약

이 논문은 단일 프레임 인간 포즈 추정 및 비디오에서 다인 포즈 추적에 대해 단순하고 강력한 기준선을 제시하며, 경량의 디컨볼루션 헤드와 흐름(flow) 기반 추적으로 최첨단 결과를 달성한다.

ABSTRACT

There has been significant progress on pose estimation and increasing interests on pose tracking in recent years. At the same time, the overall algorithm and system complexity increases as well, making the algorithm analysis and comparison more difficult. This work provides simple and effective baseline methods. They are helpful for inspiring and evaluating new ideas for the field. State-of-the-art results are achieved on challenging benchmarks. The code will be available at https://github.com/leoxiaobin/pose.pytorch.

연구 동기 및 목표

  • 단순한 헤드 디자인과 디컨볼루션이 다인 포즈 추정을 위한 경쟁력 있는 열지도를 생성할 수 있는지 조사한다.
  • 광학 흐름을 통해 관절을 전파하고 흐름 기반 유사성을 데이터 연관성에 사용하는 실용적인 흐름 기반 추적 파이프라인을 개발한다.
  • 단일 프레임 포즈 추정은 COCO에서, 비디오 기반 포즈 추정 및 추적은 PoseTrack에서 평가한다.
  • 열지도 해상도, 백본 깊이, 입력 크기 및 흐름 기반 구성 요소의 영향력을 이해하기 위한 어블레이션을 제공한다.

제안 방법

  • 깊은 특징을 키포인트 예측용 열지도(Map)로 변환하기 위해 ResNet 백본 위에 작은 디컨볼루션 레이어 스택을 추가한다.
  • 예측된 열지도와 가우시안으로 스무딩된 샘플의 MSE 손실로 학습한다.
  • 추적을 위해 이전 프레임의 관절을 광학 흐름으로 전파하여 후보 박스를 생성하고, 전파된 관절과 현재 관절 간의 OKS를 이용한 흐름 기반 포즈 유사성을 계산한다.
  • 탐지 상자와 전파된 상자를 NMS로 통합하고, 통합된 각 상자에 대해 포즈를 추정하며, 흐름 기반 유사도 행렬을 이용해 그리디 ID 할당을 수행한다.
  • 가려짐과 짧은 소실을 넘나들며 연결하기 위해 다중 프레임 흐름 기반 유사도로 추적을 확장한다.
  • M_sim을 계산하고 ID를 할당하기 위해 과거 프레임의 짧은 이력 큐를 유지하는 온라인 추론 알고리즘을 제공한다.

실험 결과

연구 질문

  • RQ1단순한 디컨볼루션 헤드가 ResNet 백본 위에 올려졌을 때, 복잡한 멀티 스테이지 아키텍처 없이 COCO의 포즈 추정 정확도를 얼마나 끌어올릴 수 있는가?
  • RQ2광학 흐름 기반의 관절 전파와 흐름 기반 포즈 유사성이 더 복잡한 파이프라인에 의존하는 최첨단 메서드와 비교해 비디오 포즈 추적에서 경쟁력을 제공하는가?
  • RQ3백본 깊이, 입력 해상도, 디컨볼루션 커널 선택이 포즈 추정 성능에 어떤 영향을 미치는가?
  • RQ4관절 전파를 탐지기 상자와 통합하는 것이 도전적인 비디오 시나리오에서 탐지 및 추적의 견고성을 향상시키는가?
  • RQ5흐름 기반 다중 프레임 유사도는 PoseTrack의 Tracking-By-Detection 성능에 어떤 영향을 미치는가?

주요 결과

MethodBackboneInput SizeAPAP50AP75APmAPlAR
CMU-Pose--61.884.967.557.168.266.5
Mask-RCNNResNet-50-FPN-63.187.368.757.871.4-
G-RMI [24]ResNet-101353×25764.985.571.362.370.069.7
CPN [6]ResNet-Inception384×28872.191.480.068.777.278.5
FAIR* [9]ResNeXt-101-FPN-69.290.477.064.976.375.2
G-RMI* [9]ResNet-152353×25771.087.977.769.075.275.8
oks* [9]--72.090.379.767.678.477.1
bangbangren* + [9]ResNet-101-72.889.479.668.680.078.7
CPN + [6,9]ResNet-Inception384×28873.091.780.969.578.179.0
OursResNet-152384×28873.791.981.170.380.079.0
  • COCO 테스트-데브에서 저자들의 단일 모델 기준선은 73.7 AP를 달성하여 기존의 단일 모델 및 앙상블 결과에 부합하거나 이를 능가한다.
  • 흐름 기반 추적 확장은 PoseTrack에서 새로운 최첨단(MOTA 57.8(ResNet-152, 384×288) 및 74.6 mAP)과 Leaderboard 항목의 다인 포즈 추적을 달성한다.
  • 어블레이션은 열지도 해상도와 더 큰 입력 크기가 AP를 향상시키고, 더 깊은 백본이 성능을 향상시킨다(예: ResNet-152).
  • 광학 흐름으로부터의 관절 전파는 탐지기(R-FCN, FPN-DCN) 및 백본에서 특히 약한 탐지기에서 mAP와 MOTA를 크게 향상시킨다.
  • 흐름 기반 포즈 유사도(다중 프레임 포함)는 경계 박스나 포즈 기반의 유사도보다 우수하며, 특히 빠른 모션이나 가려짐 하에서 강력하다.
  • 제안된 기준선은 PoseTrack 검증 및 테스트 세트에서 여러 현대 방법을 능가하는 실용적 성능을 보여 더 간단한 설계에도 불구하고 강력한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.