Skip to main content
QUICK REVIEW

[논문 리뷰] Synthetic Occlusion Augmentation with Volumetric Heatmaps for the 2018 ECCV PoseTrack Challenge on 3D Human Pose Estimation

István Sárándi, Timm Linder|arXiv (Cornell University)|2018. 09. 13.
Human Pose and Action Recognition참고 문헌 30인용 수 37
한 줄 요약

이 논문은 체적 히트맵과 소프트-아르감스를 사용하여 3D 관절 좌표를 회귀하는 완전 컨volutional 3D 인간 자세 추정 방법을 제안한다. 핵심 정규화 기법으로는 Pascal VOC 객체에서 유도된 합성적 가림 현상 증강 기법을 사용한다. 이 방법은 2018년 ECCV PoseTrack 챌린지에서 1등을 차지했으며, 추가적인 2D 자세 데이터셋을 사용하지 않고도 전체 Human3.6M 벤치마크에서 최신 기술 수준을 초월하였다.

ABSTRACT

In this paper we present our winning entry at the 2018 ECCV PoseTrack Challenge on 3D human pose estimation. Using a fully-convolutional backbone architecture, we obtain volumetric heatmaps per body joint, which we convert to coordinates using soft-argmax. Absolute person center depth is estimated by a 1D heatmap prediction head. The coordinates are back-projected to 3D camera space, where we minimize the L1 loss. Key to our good results is the training data augmentation with randomly placed occluders from the Pascal VOC dataset. In addition to reaching first place in the Challenge, our method also surpasses the state-of-the-art on the full Human3.6M benchmark among methods that use no additional pose datasets in training. Code for applying synthetic occlusions is availabe at https://github.com/isarandi/synthetic-occlusion.

연구 동기 및 목표

  • 기본 상자나 카메라 내재 매개변수 정보 없이 제약 없는 단일 인물 RGB 영상에서 3D 인간 자세 추정 문제를 해결한다.
  • 의자와 같은 복잡한 물체를 포함한 실제 환경에서의 가림 현상에 대한 강인성을 향상시킨다.
  • 학습 중 추가 2D 자세 데이터셋을 사용하지 않고도 전체 Human3.6M 벤치마크에서 최신 기술 수준의 성능을 달성한다.
  • 합성적 가림 현상 증강 기법이 3D 자세 추정에 효과적인 데이터 증강 전략임을 입증한다.

제안 방법

  • 각 3D 신체 관절에 대해 체적 히트맵을 예측하기 위해 완전 컨볼루션 기반 백본을 사용하며, 이를 소프트-아르감스를 통해 3D 좌표로 변환한다.
  • 1D 히트맵 예측 헤드를 통해 절대적 인물 중심 깊이를 추정함으로써 3D 카메라 공간으로의 역투영을 가능하게 한다.
  • 학습 이미지에 Pascal VOC 객체(크기 및 레이블 필터링)를 무작위로 붙여 합성적 가림 현상을 적용하며, 이 확률은 0.5이다.
  • 가림 물체와 입력 이미지에 기하학적(스케일링, 회전, 반전) 및 외관(흐림, 색상) 증강을 적용한다.
  • 이미지와 히트맵 좌표를 일치시키기 위해 학습 중에 학습되는 초점거리 보정 인자 $ c $ 를 사용하여 하이퍼파rameter 튜닝을 방지한다.
  • 히트맵 감독 없이 카메라 공간에서 루트 기반 3D 좌표에 대한 L1 손실을 사용하여 엔드 투 엔드 학습을 수행한다.

실험 결과

연구 질문

  • RQ1실제 환경의 가림 현상 조건에서 합성적 가림 현상 증강 기법이 3D 인간 자세 추정의 강인성 향상에 얼마나 효과적인가?
  • RQ2추가 2D 자세 데이터 없이도 체적 히트맵 회귀를 수행하는 완전 컨볼루션 아키텍처가 2018 ECCV PoseTrack 챌린지에서 기존 방법을 능가할 수 있는가?
  • RQ3추가 자세 데이터셋을 사용하지 않을 경우, 가림 현상 증강이 전체 Human3.6M 벤치마크에서 일반화 성능을 얼마나 향상시키는가?
  • RQ4가림 현상 확률 $ p_{\text{occ}} $ 의 선택이 모델 성능과 일반화에 어떤 영향을 미치는가?

주요 결과

  • 2018 ECCV PoseTrack 챌린지에서 모든 동작에 대해 가장 낮은 평균 관절 위치 오차(MPJPE)를 기록했으며, 추가 2D 자세 데이터셋을 사용한 다른 참가자들보다도 뛰어난 성능을 보였다.
  • PoseTrack 챌린지 테스트 세트에서 평균 MPJPE는 45.0 mm로, 두 번째로 우수한 방법(58.0 mm)과 추가 데이터를 사용한 다음 번째 방법(59.0 mm)보다 뚜렷하게 뛰어났다.
  • 전체 Human3.6M 벤치마크에서 MPJPE는 54.2 mm를 기록했으며, 학습 중 추가 2D 자세 데이터셋을 사용하지 않은 모든 이전 최신 기술 수준의 방법들을 뛰어넘었다.
  • 제거 실험 결과, $ p_{\text{occ}} = 0.5 $ 인 가림 현상 증강은 기본 모델(65.7 mm 대비 54.2 mm)에 비해 MPJPE를 11.5 mm 감소시켰다.
  • 의자와 같은 가림 물체가 포함된 동작(예: Sitting, Sitting Down)에서 성능 향상이 가장 두드러졌으며, 기본 모델 대비 12.5 mm 향상되어 물체 가림 현상에 대한 강인성이 뛰어나다는 것을 시사했다.
  • 가림 현상 증강 효과는 $ p_{\text{occ}} \approx 70\% $ 에서 포화 상태에 도달했으며, 추가 증가로는 근소한 성능 향상만 있었고, 이는 중간 정도의 증강 비율에서 최적의 데이터 효율성을 확보할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.