QUICK REVIEW

[논문 리뷰] Multi-scale Aggregation R-CNN for 2D Multi-person Pose Estimation

Gyeongsik Moon, Ju Yong Chang|arXiv (Cornell University)|2019. 01. 01.

Human Pose and Action Recognition인용 수 5

한 줄 요약

이 논문은 다중 척도 특징 집합을 통한 MS-RoIAlign 및 MS-KpsNet를 통합하여 키포인트 정확도를 향상시키면서도 계산 비용을 감소시키는 통합 단일 모델 접근법인 다중 척도 집합 R-CNN(MSA R-CNN)을 제안한다. 이는 단일 모델 방법 중에서 최고의 성능을 기록하며, 별도의 모델들 수준의 효율성을 갖춘다.

ABSTRACT

Multi-person pose estimation from a 2D image is challenging because it requires not only keypoint localization but also human detection. In state-of-the-art top-down methods, multi-scale information is a crucial factor for the accurate pose estimation because it contains both of local information around the keypoints and global information of the entire person. Although multi-scale information allows these methods to achieve the state-of-the-art performance, the top-down methods still require a huge amount of computation because they need to use an additional human detector to feed the cropped human image to their pose estimation model. To effectively utilize multi-scale information with the smaller computation, we propose a multi-scale aggregation R-CNN (MSA R-CNN). It consists of multi-scale RoIAlign block (MS-RoIAlign) and multi-scale keypoint head network (MS-KpsNet) which are designed to effectively utilize multi-scale information. Also, in contrast to previous top-down methods, the MSA R-CNN performs human detection and keypoint localization in a single model, which results in reduced computation. The proposed model achieved the best performance among single model-based methods and its results are comparable to those of separated model-based methods with a smaller amount of computation on the publicly available 2D multi-person keypoint localization dataset.

연구 동기 및 목표

별도의 인간 검출기와 자세 추정기 의존으로 인해 높은 계산 비용이 발생하는 상향식 자세 추정 방법의 문제를 해결한다.
통합 프레임워크 내에서 국소 및 전반적 다중 척도 특징을 효과적으로 활용하여 키포인트 정위치 정확도를 향상시킨다.
인간 검출 및 키포인트 예측을 하나의 종단 간 모델로 통합하여 추론 시간과 모델 복잡도를 감소시킨다.
더 적은 파라미터와 계산 자원을 사용하면서도 최신 별도 모델 기반 방법과 동등하거나 이를 초월하는 성능을 달성한다.

제안 방법

영역 관심 영역 수준에서 다중 척도 특징을 집계하여 공간적 세부 정보와 맥락을 유지하는 다중 척도 RoIAlign 블록(MS-RoIAlign)을 제안한다.
다양한 척도의 특징을 처리하여 키포인트 회귀 정확도를 향상시키는 다중 척도 키포인트 헤드 네트워크(MS-KpsNet)를 도입한다.
단일 순방향 전파 내에서 인간 인스턴스와 그 키포인트 위치를 동시에 예측하는 통합된 검출 및 키포인트 헤드 아키텍처를 설계한다.
특징 피라미드 네트워크를 활용하여 백본 네트워크에서 다중 척도 특징을 추출하고, 이를 MS-RoIAlign을 통해 집계하여 표현력을 향상시킨다.
검출 및 키포인트 예측에 공통된 백본을 사용하여 이중 단계 파이프라인에 비해 중복성과 계산량을 감소시킨다.
훈련 중 다중 척도 감독을 적용하여, 키포인트 헤드가 다양한 특징 척도에서 지도 학습을 통해 정위치 정확도를 향상시킨다.

실험 결과

연구 질문

RQ1통합 단일 모델 아키텍처가 높은 정확도를 유지하면서도 인간 검출과 키포인트 추정을 효과적으로 통합할 수 있는가?
RQ2MS-RoIAlign를 통한 다중 척도 특징 집합이 단일 척도 또는 표준 RoIAlign에 비해 키포인트 정위치 정확도를 어떻게 향상시키는가?
RQ3제안된 방법은 별도의 검출 및 자세 추정 모델에 비해 계산 비용을 얼마나 줄일 수 있으며, 성능은 동등하거나 초월하는가?
RQ4검출 및 키포인트 헤드 양쪽에 다중 척도 특징을 통합함으로써 다양한 인간 자세와 척도에서 더 견고한 예측을 이끌 수 있는가?

주요 결과

MSA R-CNN는 2D 다인원 키포인트 정위치 기준 평가 벤치마크에서 단일 모델 기반 방법 중 최고의 성능을 기록한다.
최신 별도 모델 기반 방법과 유사한 성능을 보이며, 통합 설계가 정확도를 저하시키지 않음을 입증한다.
별도의 인간 검출기가 필요 없어져 계산 비용을 크게 감소시키고, 더 빠른 추론을 가능하게 한다.
MS-RoIAlign 및 MS-KpsNet의 활용으로 소형 또는 가림을 입은 사람의 경우에도 다중 척도 특징 활용도 향상으로 인해 키포인트 정위치 정확도가 향상된다.
이중 단계 상향식 접근법에 비해 모델 복잡도와 추론 시간을 줄였음에도 불구하고 높은 정확도를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.