Skip to main content
QUICK REVIEW

[논문 리뷰] TFPose: Direct Human Pose Estimation with Transformers

Weian Mao, Yongtao Ge|arXiv (Cornell University)|2021. 03. 29.
Human Pose and Action Recognition참고 문헌 39인용 수 57
한 줄 요약

TFPose는 2D 인간 포즈 추정을 시퀀스 예측 문제로 재구성하고 트랜스포머를 사용하여 키포인트 좌표를 직접 회귀하며, 회귀 기반 방법 중 최첨단을 달성하고 히트맵 기반 방법과 경쟁력 있는 성능을 보인다.

ABSTRACT

We propose a human pose estimation framework that solves the task in the regression-based fashion. Unlike previous regression-based methods, which often fall behind those state-of-the-art methods, we formulate the pose estimation task into a sequence prediction problem that can effectively be solved by transformers. Our framework is simple and direct, bypassing the drawbacks of the heatmap-based pose estimation. Moreover, with the attention mechanism in transformers, our proposed framework is able to adaptively attend to the features most relevant to the target keypoints, which largely overcomes the feature misalignment issue of previous regression-based methods and considerably improves the performance. Importantly, our framework can inherently take advantages of the structured relationship between keypoints. Experiments on the MS-COCO and MPII datasets demonstrate that our method can significantly improve the state-of-the-art of regression-based pose estimation and perform comparably with the best heatmap-based pose estimation methods.

연구 동기 및 목표

  • 히트맵 기반 방법과의 회귀 기반 자세 추정 격차를 해소한다.
  • 키포인트 간의 공간-시간 의존성을 모델링하기 위해 트랜스포머를 활용한다.
  • 히트맷 포스트 프로세싱 및 양자화 한계를 제거한다.
  • 포즈 추정을 위한 엔드-투-엔드 미분 가능 학습을 가능하게 한다.

제안 방법

  • 단일 사람 포즈 추정을 키포인트의 K-길이 시퀀스 예측으로 formalize한다.
  • 다중 수준 특성을 추출한 뒤 트랜스포머 인코더와 융합하는 CNN 백본을 사용한다.
  • 학습 가능한 키포인트 질의를 갖는 트랜스포머 디코더를 배치하여 K개의 2D 좌표를 예측한다.
  • 키포인트 간의 구조적 관계를 포착하기 위해 질의-대 질의 주의(attention)를 도입한다.
  • 디코더 계층 전체에서 L1 회귀 손실과 보조 히트맵 손실의 조합으로 수렴 속도를 높인다.
  • 다음 디코더 계층에서 정제 Δy_d를 예측하여 점진적 개선을 꾀한다.

실험 결과

연구 질문

  • RQ1트랜스포머 기반 회귀 프레임워크가 기존의 회귀 기반 포즈 방법을 능가할 수 있는가?
  • RQ2질의-대 질의 주의(attention) 도입이 키포인트 간의 구조를 모델링하는 데 도움이 되는가?
  • RQ3보조 히트맵 감독이 트랜스포머 기반 포즈 모델의 수렴 및 정확도에 어떤 영향을 미치는가?
  • RQ4COCO MPII에 대한 인코더/디코더 구성 간의 트레이드오프와 포즈 추정 정확도는 어떻게 되는가?
  • RQ5트랜스포머를 활용한 회귀 기반 방법이 표준 벤치마크에서 히트맷 기반의 최첨단에 얼마나 근접할 수 있는가?

주요 결과

  • TFPose는 회귀 기반 포즈 추정을 크게 향상시키며, COCO 및 MPII에서 이전의 회귀 방법들을 능가한다.
  • 질의-대 질의 주의(attention) 도입으로 COCO val2017에서 측정 가능한 AP 증가를 얻는다(~1.3% AP).
  • 256채널 트랜스포머 인코더 입력이 128채널 구성보다 AP에서 더 나은 성능을 보인다.
  • 디코더 깊이를 증가시키면 세 번째 층까지 이득이 나타나다 차단되며, 6개의 디코더에서 최적 결과가 보고된다.
  • 보조 히트맵 손실은 수렴 속도를 높이고 AP를 약 2.3 포인트 끌어올린다.
  • ResNet-50 백본의 TFPose는 COCO test-dev에서 히트맵 기반 방법과 대등한 성능을 낼 수 있으며 GFLOPs가 더 낮다(구성에 따라 70.9–72.2 AP).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.