QUICK REVIEW

[論文レビュー] WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose

Yijun Zhou, James Gregson|arXiv (Cornell University)|May 20, 2020

Human Motion and Animation参考文献 48被引用数 60

ひとこと要約

WHENetは、ラップされた損失と、狭範囲データと全範囲データの両方を活用する2段階の学習戦略を用いて、単一のRGB画像から全範囲の頭部姿勢（ヨー、ピッチ、ロー）を推定するエンドツーエンドネットワークであり、モバイルに適したバックボーンで最先端の結果または競争力のある結果を達成します。

ABSTRACT

We present an end-to-end head-pose estimation network designed to predict Euler angles through the full range head yaws from a single RGB image. Existing methods perform well for frontal views but few target head pose from all viewpoints. This has applications in autonomous driving and retail. Our network builds on multi-loss approaches with changes to loss functions and training strategies adapted to wide range estimation. Additionally, we extract ground truth labelings of anterior views from a current panoptic dataset for the first time. The resulting Wide Headpose Estimation Network (WHENet) is the first fine-grained modern method applicable to the full-range of head yaws (hence wide) yet also meets or beats state-of-the-art methods for frontal head pose estimation. Our network is compact and efficient for mobile devices and applications.

研究の動機と目的

自動運転や小売などの用途において、全ヨー範囲にわたるリアルタイムの頭部姿勢推定を促進する。
広範囲の頭部姿勢に対してヨー、ピッチ、ローを予測できるモバイルフレンドリーなネットワークを開発する。
前方ビューに対するヨー推定を安定化させるために、ラップされた損失を導入する。
CMU Panoptic Dataset から全範囲のHPEへ訓練データを拡張する自動データラベリングパイプラインを作成する。
WHENet が正面からプロファイルへの手法と比較して競争力のあるまたは最先端の性能を達成することを示す。

提案手法

ピッチ、ヨー、ロールの分類損失と回帰損失を組み合わせたマルチ損失フレームワークを採用する。
ヨーを(-180,180]で3度ごとに120ビンに離散化し、ピッチ/ロールを[-99,99]の66ビンに分割する（実用上は[-90,90]のみを使用）。
予測ヨーと真のヨーを整合させるのに必要な最小回転量を測定するラップされた回帰損失を導入し、±180°近傍の大角度ペナルティを緩和する。
バックボーンはEfficientNet-B0で、組み込みプラットフォーム上で推論がほぼ60 fpsとなる、コンパクトでモバイルフレンドリーなモデル。
300W-LP上で狭範囲 WHENet-V（yaw in [-99°,99°]）を事前学習し、次に結合データセット（300W-LP + CMU Panoptic）で全範囲 WHENet をファイントゥーンして、広い yaw 変化をカバーする。
仮想正面参照カメラと外部値を用いてカメラ相対頭部姿勢のEuler角を導出する自動ラベリングを CMU Panoptic Dataset に対して実行し、大規模な前方ビュー注釈を可能にする。

実験結果

リサーチクエスチョン

RQ1モバイルフレンドリーなネットワークは、RGB画像を用いて頭部の全範囲のヨーにわたる姿勢推定を正確に行えるか？
RQ2前方ビューにおけるヨーの精度は、標準のMSE損失と比較してラップされた損失で改善されるか？
RQ3既存データセットと組み合わせた場合、CMU Panoptic Dataset からの自動ラベリングは全範囲HPEの訓練データとして有効か？
RQ4全範囲および狭範囲の頭部姿勢ベンチマークで、WHENetは最先端手法と比較してどうなのか？
RQ5広範囲HPEにおけるヨー、ピッチ、ローの精度に対するアーキテクチャと損失選択の影響はどのようか？

主な発見

WHENetは全範囲の頭部姿勢推定でBIWIとAFLW2000において最先端または競争力のある性能を達成し、全範囲を訓練していても狭範囲HPEではFSANetに対してMAEが約1.8%以内に収まる。
ラップされたヨー損失は大きなヨー角での誤差を大幅に削減し（極端な姿勢でのヨー誤差を約50%以上低減）、MSEと比較して顕著に改善する。
WHENet-V（狭範囲）はBIWIとAFLW2000で最先端の精度を達成し、引用データセットでHopenetおよびFSANetを顕著に上回る。
全範囲ヨー（120ビン）の完全な WHENet モデルは、顔が見えない姿勢も含む完全な回転を通じて一貫した姿勢予測を示し、遮蔽や視界外シナリオに対する頑健性を示す。
2段階の訓練（WHENet-Vを300W-LPで事前訓練し、その後CMU Panoptic + 300W-LPデータを結合してWHENetを訓練）は、収束と広い yaw 変化への一般化を改善する。
WHENetは軽量なバックボーン（EfficientNet-B0）を使用しつつ高い性能を維持し、推論がほぼ60 fpsでモバイル/組み込みデプロイを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。