[论文解读] WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose
WHENet 是一个端到端网络,使用 wrapped loss 和两阶段训练策略,从单张 RGB 图像估计全范围头部姿态(yaw、pitch、roll),结合窄域和全域数据,达到最先进或有竞争力的结果,且骨干网络对移动端友好。
We present an end-to-end head-pose estimation network designed to predict Euler angles through the full range head yaws from a single RGB image. Existing methods perform well for frontal views but few target head pose from all viewpoints. This has applications in autonomous driving and retail. Our network builds on multi-loss approaches with changes to loss functions and training strategies adapted to wide range estimation. Additionally, we extract ground truth labelings of anterior views from a current panoptic dataset for the first time. The resulting Wide Headpose Estimation Network (WHENet) is the first fine-grained modern method applicable to the full-range of head yaws (hence wide) yet also meets or beats state-of-the-art methods for frontal head pose estimation. Our network is compact and efficient for mobile devices and applications.
研究动机与目标
- 在包括自动驾驶和零售等应用场景中,实现覆盖全 yaw 范围的实时头部姿态估计。
- 开发一个适合移动端的网络,能够对宽范围头部姿态进行 yaw、pitch 和 roll 的预测。
- 引入 wrapped loss,以稳定前视角下的 yaw 预测。
- 创建一个自动化数据标注管道,将 CMU Panoptic 数据集的训练数据扩展到全范围的 HPE。
- 表明 WHENet 相较于从正面到侧面的方法,达到竞争力或最先进的性能。
提出的方法
- 采用多损失框架,将分类和回归损失结合用于 pitch、yaw 和 roll。
- 将 yaw 离散为在 (-180,180] 的 120 个 bin,每个 3 度;pitch/roll 离散为在 [-99,99] 的 66 个 bin(实际仅使用 [-90,90])。
- 引入 wrapped 回归损失,测量将预测 yaw 与真实 yaw 对齐所需的最小旋转角度,减轻接近 ±180° 时的巨大角度惩罚。
- 骨干网络为 EfficientNet-B0,紧凑、移动端友好,在嵌入式平台上推理接近 60 fps。
- 在 300W-LP 上对 narrow-range WHENet-V(yaw 在 [-99°,99°])进行预训练,然后在组合数据集(300W-LP + CMU Panoptic)上对 full-range WHENet 进行微调,以覆盖广泛的 yaw 变化。
- 自动化标注 CMU Panoptic 数据集,以使用虚拟正视参考相机和外参推导相机相关的头部姿态欧拉角,从而实现大规模前视图标注。
实验结果
研究问题
- RQ1一个移动友好的网络是否能够用 RGB 图像在全范围的头部 yaw 上准确估计头部姿态?
- RQ2与常规 MSE 损失相比, wrapped 损失是否提高了前视角下的 yaw 精度?
- RQ3在与现有数据集结合时,来自 CMU Panoptic 数据集的自动标注是否能提供有效的全范围 HPE 训练数据?
- RQ4WHENet 相对于全范围和窄范围头部姿态基准方法的表现如何?
- RQ5在宽范围 HPE 中,架构和损失选择对 yaw、pitch 和 roll 的精度有何影响?
主要发现
- WHENet 在 BIWI 和 AFLW2000 的全范围头部姿态估计上达到最先进或有竞争力的性能,并且在窄范围 HPE 相对于 FSANet 的 MAE 仅落后 1.8%,尽管其是为全范围训练的。
- 与 MSE 相比, wrapped yaw 损失在大 yaw 时显著降低误差(极端姿态的 yaw 误差约下降 >50%)。
- WHENet-V(窄范围)在 BIWI 和 AFLW2000 上达到最先进的准确性,相较于 Hopenet 和 FSANet 在所引述的数据集上有显著提升。
- 全范围 yaw 的 WHENet 模型(120 bin)在整圈旋转中显示出一致的姿态预测,包括面部不可见的姿态,表明对遮挡和视野外场景具有鲁棒性。
- 两阶段训练(WHENet-V 在 300W-LP 上预训练,然后 WHENet 在综合 CMU Panoptic + 300W-LP 数据上训练)提高了收敛性和对宽 yaw 变异的泛化能力。
- WHENet 在使用较轻的骨干网络(EfficientNet-B0)时仍保持强劲性能,实现移动/嵌入式部署,推理接近 60 fps。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。