Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-scale Aggregation R-CNN for 2D Multi-person Pose Estimation

Gyeongsik Moon, Ju Yong Chang|arXiv (Cornell University)|2019. 01. 01.
Human Pose and Action Recognition인용 수 5
한 줄 요약

이 논문은 다중 척도 특징 집합을 통한 MS-RoIAlign 및 MS-KpsNet를 통합하여 키포인트 정확도를 향상시키면서도 계산 비용을 감소시키는 통합 단일 모델 접근법인 다중 척도 집합 R-CNN(MSA R-CNN)을 제안한다. 이는 단일 모델 방법 중에서 최고의 성능을 기록하며, 별도의 모델들 수준의 효율성을 갖춘다.

ABSTRACT

Multi-person pose estimation from a 2D image is challenging because it requires not only keypoint localization but also human detection. In state-of-the-art top-down methods, multi-scale information is a crucial factor for the accurate pose estimation because it contains both of local information around the keypoints and global information of the entire person. Although multi-scale information allows these methods to achieve the state-of-the-art performance, the top-down methods still require a huge amount of computation because they need to use an additional human detector to feed the cropped human image to their pose estimation model. To effectively utilize multi-scale information with the smaller computation, we propose a multi-scale aggregation R-CNN (MSA R-CNN). It consists of multi-scale RoIAlign block (MS-RoIAlign) and multi-scale keypoint head network (MS-KpsNet) which are designed to effectively utilize multi-scale information. Also, in contrast to previous top-down methods, the MSA R-CNN performs human detection and keypoint localization in a single model, which results in reduced computation. The proposed model achieved the best performance among single model-based methods and its results are comparable to those of separated model-based methods with a smaller amount of computation on the publicly available 2D multi-person keypoint localization dataset.

연구 동기 및 목표

  • 별도의 인간 검출기와 자세 추정기 의존으로 인해 높은 계산 비용이 발생하는 상향식 자세 추정 방법의 문제를 해결한다.
  • 통합 프레임워크 내에서 국소 및 전반적 다중 척도 특징을 효과적으로 활용하여 키포인트 정위치 정확도를 향상시킨다.
  • 인간 검출 및 키포인트 예측을 하나의 종단 간 모델로 통합하여 추론 시간과 모델 복잡도를 감소시킨다.
  • 더 적은 파라미터와 계산 자원을 사용하면서도 최신 별도 모델 기반 방법과 동등하거나 이를 초월하는 성능을 달성한다.

제안 방법

  • 영역 관심 영역 수준에서 다중 척도 특징을 집계하여 공간적 세부 정보와 맥락을 유지하는 다중 척도 RoIAlign 블록(MS-RoIAlign)을 제안한다.
  • 다양한 척도의 특징을 처리하여 키포인트 회귀 정확도를 향상시키는 다중 척도 키포인트 헤드 네트워크(MS-KpsNet)를 도입한다.
  • 단일 순방향 전파 내에서 인간 인스턴스와 그 키포인트 위치를 동시에 예측하는 통합된 검출 및 키포인트 헤드 아키텍처를 설계한다.
  • 특징 피라미드 네트워크를 활용하여 백본 네트워크에서 다중 척도 특징을 추출하고, 이를 MS-RoIAlign을 통해 집계하여 표현력을 향상시킨다.
  • 검출 및 키포인트 예측에 공통된 백본을 사용하여 이중 단계 파이프라인에 비해 중복성과 계산량을 감소시킨다.
  • 훈련 중 다중 척도 감독을 적용하여, 키포인트 헤드가 다양한 특징 척도에서 지도 학습을 통해 정위치 정확도를 향상시킨다.

실험 결과

연구 질문

  • RQ1통합 단일 모델 아키텍처가 높은 정확도를 유지하면서도 인간 검출과 키포인트 추정을 효과적으로 통합할 수 있는가?
  • RQ2MS-RoIAlign를 통한 다중 척도 특징 집합이 단일 척도 또는 표준 RoIAlign에 비해 키포인트 정위치 정확도를 어떻게 향상시키는가?
  • RQ3제안된 방법은 별도의 검출 및 자세 추정 모델에 비해 계산 비용을 얼마나 줄일 수 있으며, 성능은 동등하거나 초월하는가?
  • RQ4검출 및 키포인트 헤드 양쪽에 다중 척도 특징을 통합함으로써 다양한 인간 자세와 척도에서 더 견고한 예측을 이끌 수 있는가?

주요 결과

  • MSA R-CNN는 2D 다인원 키포인트 정위치 기준 평가 벤치마크에서 단일 모델 기반 방법 중 최고의 성능을 기록한다.
  • 최신 별도 모델 기반 방법과 유사한 성능을 보이며, 통합 설계가 정확도를 저하시키지 않음을 입증한다.
  • 별도의 인간 검출기가 필요 없어져 계산 비용을 크게 감소시키고, 더 빠른 추론을 가능하게 한다.
  • MS-RoIAlign 및 MS-KpsNet의 활용으로 소형 또는 가림을 입은 사람의 경우에도 다중 척도 특징 활용도 향상으로 인해 키포인트 정위치 정확도가 향상된다.
  • 이중 단계 상향식 접근법에 비해 모델 복잡도와 추론 시간을 줄였음에도 불구하고 높은 정확도를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.