[논문 리뷰] Multi-Person Pose Estimation with Local Joint-to-Person Associations
이 논문은 각 사람의 이미지 영역에서 국소 최적화 문제로 관절-사람 연결을 설정하는 빠르고 정확한 다수인의 자세 추정 방법을 제안한다. 이는 잘린 이미지 영역에서 정수선형계획법(ILP)을 사용한다. 이 방법은 MPII 다수인 자세 데이터셋에서 최신 기준(SOTA) 성능을 달성하면서도, 전역이 아닌 국소적으로 연결 문제를 해결함으로써 이전 방법들보다 6,000배에서 19,000배 빠르다.
Despite of the recent success of neural networks for human pose estimation, current approaches are limited to pose estimation of a single person and cannot handle humans in groups or crowds. In this work, we propose a method that estimates the poses of multiple persons in an image in which a person can be occluded by another person or might be truncated. To this end, we consider multi-person pose estimation as a joint-to-person association problem. We construct a fully connected graph from a set of detected joint candidates in an image and resolve the joint-to-person association and outlier detection using integer linear programming. Since solving joint-to-person association jointly for all persons in an image is an NP-hard problem and even approximations are expensive, we solve the problem locally for each person. On the challenging MPII Human Pose Dataset for multiple persons, our approach achieves the accuracy of a state-of-the-art method, but it is 6,000 to 19,000 times faster.
연구 동기 및 목표
- 사람들이 잘린 상태이거나 겹쳐져 있는 혼잡하거나 가림이 있는 장면에서 다수인 자세 추정의 과제를 해결한다.
- 큰 그래픽 모델에서 전역 관절-사람 연결의 계산 비용이 너무 높아져 실현 불가능한 문제를 해결한다. 이는 NP-완전 문제이며, 처리 속도가 매우 느리다.
- 실시간 적용이 가능한 다수인 자세 추정을 가능하게 하기 위해 실행 시간을 줄이면서도 높은 정확도를 유지한다.
- 전역 연결 문제를 각 사람마다 독립적인 국소 최적화 작업으로 분리하여 효율성을 높이되, 강건성은 손상시키지 않는다.
- 사전 훈련된 사람 검출기와 CNN 기반 관절 검출기를 사용한 국소 연결이 최소한의 계산 비용으로도 경쟁적인 성능을 낼 수 있음을 입증한다.
제안 방법
- 각 사람의 중심을 중점으로 하여 사전 훈련된 사람 검출기를 사용해 관심 영역(ROI) 후보를 생성한다.
- 각 ROI에서 컨볼루션 신경망(CNN)을 사용해 모든 관절 후보를 검출하여 각 관절 키포인트에 대한 히트맵을 생성한다.
- 각 ROI 내의 검출된 관절 후보 간에 완전히 연결된 그래프를 구성하여 모든 가능한 관절-사람 연결을 모델링한다.
- 각 ROI에서 관절-사람 연결 및 이방성 검출 문제를 정수선형계획법(ILP) 문제로 설정하여 최적의 자세 구성 구성을 찾는다.
- 그래픽 모델을 통한 정제에 의존하지 않고, CNN를 직접 사용해 관절 레이블링과 비최대 억제(NMS)를 수행한다.
- 전체 사람들에 걸쳐 전역적으로 해결하는 대신, 각 사람의 ROI에서 국소적으로 ILP 문제를 해결함으로써 계산 복잡도를 크게 감소시킨다.
실험 결과
연구 질문
- RQ1자르기된 이미지 영역에서 국소적인 관절-사람 연결이 다수인 자세 추정에서 전역 관절 연결과 유사한 정확도를 달성할 수 있는가?
- RQ2전역이 아닌 국소적으로 관절-사람 연결 문제를 해결함으로써 실행 시간을 줄일 수 있고, 가림 및 잘림에 대해 강건성을 유지할 수 있는가?
- RQ3정확도와 추론 속도 측면에서 국소 연결의 성능은 최신 기준 전역 방법과 어떻게 비교되는가?
- RQ4사람 검출기의 품질이 제안된 프레임워크에서 최종 자세 추정 정확도에 어느 정도 영향을 미치는가?
- RQ5어려운 벤치마크에서 정확도를 손상시키지 않고 실시간 다수인 자세 추정을 위한 경량이고 효율적인 방법을 개발할 수 있는가?
주요 결과
- 제안된 방법은 MPII 다수인 자세 데이터셋의 288장 이미지 서브셋에서 평균 정밀도(mAP) 54.7%를 달성했으며, DeepCut(53.5%)를 능가하면서도 이미지당 10초(57,995초 대비)로 5,799.5배 빠르게 작동한다.
- 각 관절에 후보 하나(N=1)만을 사용할 경우, 이미지당 3초로 실행되며 mAP 53.1%를 기록했고, DeepCut 대비 19,000배 이상 빠르게 작동한다.
- 2,000장 이상의 전체 테스트 세트에서, 방법은 mAP 43.1%를 기록했으며, 진짜 사람 바운딩 박스(GT ROIs)를 사용할 경우 62.2%로 향상되어 검출 품질의 영향을 보여준다.
- 전체 테스트 세트에서 DeeperCut 대비 50배 빠르며(이미지당 10초 대비 485초), N=1일 경우 160배 빠르게 작동한다.
- 진짜 토러스 위치를 사용할 경우 mAP가 43.1%에서 62.2%로 상승하여, 더 나은 사람 검출기를 사용할 경우 향상 가능성을 시사한다.
- 동일한 검출 입력을 사용할 경우, DeepCut 및 DeeperCut를 모두 초월하는 정확도를 기록했으며, GT ROIs를 사용할 경우 동시다발적인 방법[6]보다도 크게 승리한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.