QUICK REVIEW

[논문 리뷰] WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose

Yijun Zhou, James Gregson|arXiv (Cornell University)|2020. 05. 20.

Human Motion and Animation참고 문헌 48인용 수 60

한 줄 요약

WHENet은 단일 RGB 이미지에서 래핑 손실과 두 단계 학습 전략을 사용해 좁은 데이터와 전체 범위 데이터를 모두 활용하며 모바일 친화적 백본으로 최첨단 혹은 경쟁력 있는 성능을 달성하고 전체 범위 머리 포즈(yaw, pitch, roll)를 엔드-투-엔드로 추정합니다.

ABSTRACT

We present an end-to-end head-pose estimation network designed to predict Euler angles through the full range head yaws from a single RGB image. Existing methods perform well for frontal views but few target head pose from all viewpoints. This has applications in autonomous driving and retail. Our network builds on multi-loss approaches with changes to loss functions and training strategies adapted to wide range estimation. Additionally, we extract ground truth labelings of anterior views from a current panoptic dataset for the first time. The resulting Wide Headpose Estimation Network (WHENet) is the first fine-grained modern method applicable to the full-range of head yaws (hence wide) yet also meets or beats state-of-the-art methods for frontal head pose estimation. Our network is compact and efficient for mobile devices and applications.

연구 동기 및 목표

자율 주행 및 소매업과 같은 응용 분야를 위한 전체 yaw 범위에서의 실시간 헤드 포즈 추정 동기화.
wide-range 머리 포즈에 대해 yaw, pitch, roll을 예측할 수 있는 모바일 친화적 네트워크 개발.
전방향 뷰에서 yaw 예측의 안정화를 위한 래핑 손실 도입.
CMU Panoptic Dataset에서 전체 범위 HPE를 위한 자동 데이터 라벨링 파이프라인 구축.
WHENet이 프런탈-투-프로파일 방법과 비교하여 경쟁력 있거나 최첨단 성능을 달성함을 보임.

제안 방법

yaw, pitch, roll에 대한 분류 및 회귀 손실을 결합한 다손실 프레임워크를 채택합니다.
yaw는 (-180,180]에서 120개의 구간으로 양자화하고, pitch/roll은 [-99,99]의 66개 구간으로 설정합니다(실제로는 -90에서 90만 사용).
예측 yaw와 실제 yaw를 정렬하는 최소 회전을 측정하는 래핑 회귀 손실을 도입하여 ±180° 근처의 큰 각도 패널티를 완화합니다.
백본은 EfficientNet-B0으로 컴팩트하고 모바일 친화적인 모델이며 임베디드 플랫폼에서 추론이 약 60 fps에 근접합니다.
300W-LP에서 좁은 범위 WHENet-V(yaw [-99°,99°])를 사전 학습한 후, 전체 범위 WHENet를 300W-LP + CMU Panoptic 합본 데이터에서 미세 조정하여 넓은 yaw 변화를 다룹니다.
CMU Panoptic Dataset의 자동 라벨링을 통해 가상 전방 참조 카메라 및 외재적 파라미터를 사용해 카메라-상대 머리 포즈 오일러 각을 도출하고, 대규모 전방 뷰 주석이 가능하도록 합니다.

실험 결과

연구 질문

RQ1RGB 이미지를 사용해 모바일 친화적 네트워크가 전체 yaw 범위에서 정확하게 머리 포즈를 추정할 수 있는가?
RQ2래핑 손실이 전방 뷰에서 표준 MSE 손실에 비해 yaw 정확도를 개선하는가?
RQ3CMU Panoptic Dataset의 자동 라벨링이 기존 데이터와 결합했을 때 효과적인 전체 범위 HPE 학습 데이터를 제공하는가?
RQ4WHENet은 전체 범위 및 좁은 범위 헤드 포즈 벤치마크에서 최첨단 방법에 비해 어떠한 성능을 보이는가?
RQ5넓은 범위 HPE에서 yaw, pitch, roll의 정확도에 대해 아키텍처 및 손실 선택이 어떤 영향을 미치는가?

주요 결과

WHENet은 전체 범위 헤드 포즈 추정에서 BIWI 및 AFLW2000에서 최첨단 또는 경쟁력 있는 성능을 달성하고, 전체 범위로 학습했음에도 불구하고 FSANet 대비 좁은 범위 HPE에서 MAE가 1.8% 이내로 유지됩니다.
래핑 yaw 손실은 큰 요오(yaw)에서의 오류를 현저히 감소시키며, 극단 포즈에서 yaw 오차를 MSE 대비 약 50% 이상 감소시킵니다.
WHENet-V(좁은 범위)는 BIWI 및 AFLW2000에서 최첨단 정확도를 달성하며, Hopenet 및 FSANet에 비해 인지도가 높은 향상을 보입니다.
전체 WHENet 모델은 전체 범위 yaw(120구간)에서 얼굴이 보이지 않는 자세를 포함한 전체 회전에서 일관된 포즈 예측을 보여 어긋남/가림 상황에 대한 강건성을 시사합니다.
2단계 학습(WHENet-V를 300W-LP에서 사전 학습, 그 후 CMU Panoptic + 300W-LP 데이터의 합본 학습)이 수렴성과 일반화를 향상시키며 넓은 yaw 변화에 대한 적응력을 높입니다.
WHENet은 더 가벼운 백본(EfficientNet-B0)을 사용하면서도 강력한 성능을 유지하여 모바일/임베디드 배치에서 추론이 약 60 fps에 도달합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.