[论文解读] ZooBuilder: 2D and 3D Pose Estimation for Quadrupeds Using Synthetic Data
本文提出ZooBuilder,一种端到端的流水线,利用MotionBuilder中关键帧动画生成的合成数据,实现对四足动物的2D和3D姿态估计。通过渲染美洲豹FBX动画的多个摄像头视角,该方法构建了一个大规模、逼真的训练数据集,使微调后的深度学习模型能够从真实野生动物视频中推断出准确的3D动作捕捉,即使在领域偏移挑战下仍能实现鲁棒的姿态估计。
This work introduces a novel strategy for generating synthetic training data for 2D and 3D pose estimation of animals using keyframe animations. With the objective to automate the process of creating animations for wildlife, we train several 2D and 3D pose estimation models with synthetic data, and put in place an end-to-end pipeline called ZooBuilder. The pipeline takes as input a video of an animal in the wild, and generates the corresponding 2D and 3D coordinates for each joint of the animal's skeleton. With this approach, we produce motion capture data that can be used to create animations for wildlife.
研究动机与目标
- 为解决野生动物四足动物(尤其是非人类动物)2D和3D姿态估计训练数据稀缺的问题。
- 开发一种可扩展的合成数据生成流水线,通过关键帧动画模拟虚拟动作捕捉室。
- 利用合成数据和迁移学习,将以人为中心的姿态估计模型适配至四足动物骨架。
- 构建一个端到端系统,能够从现实世界动物视频中生成3D动画。
- 提升在合成数据上训练的姿态模型在真实、非约束性野生动物视频上的泛化能力。
提出的方法
- 将美洲豹的FBX关键帧动画导入Autodesk MotionBuilder,模拟配备12台校准相机的虚拟动捕工作室。
- 为每一帧和每个相机视角渲染37个骨骼关节点的3D世界坐标、相机参数以及2D图像投影。
- 应用数据增强技术,如旋转、缩放、翻转、高斯噪声、颜色抖动以及亮度/对比度调整,以提升训练多样性。
- 通过在渲染图像中添加随机背景,进行后处理,以提升真实感并减少与真实世界测试数据的领域偏移。
- 使用风格迁移和灰度变换对数据分布进行标准化,提升模型在不同领域间的泛化能力。
- 使用迁移学习和逐层学习率,基于合成数据集微调2D(OpenPose)和3D(Pose_3D)姿态估计模型。
实验结果
研究问题
- RQ1从美洲豹关键帧动画生成的合成数据是否具备足够的真实感和多样性,以训练出准确的2D和3D姿态估计模型?
- RQ2诸如灰度转换和风格迁移等数据领域自适应技术,在减少合成训练数据与真实野生动物视频测试集之间领域差距方面效果如何?
- RQ3在多大程度上可以利用合成数据将以人为中心的姿态估计模型微调并适配至四足动物骨架?
- RQ4端到端流水线是否能仅使用合成训练数据,成功从真实2D视频中推断出3D动画?
- RQ5在处理复杂现实视频条件(如遮挡、低对比度或多主体)时,该流水线的主要局限性是什么?
主要发现
- 在灰度图像上进行2D姿态估计模型的训练与测试,相比标准彩色输入,显著提升了预测准确率。
- 使用风格迁移进行数据标准化导致性能劣于未使用该技术的训练,表明风格迁移可能扭曲关键点检测至关重要的特征。
- 约17万张图像的合成数据集,经几何与光度变换增强后,有效支持了2D和3D姿态模型的微调。
- ZooBuilder流水线成功从真实野生动物视频中推断出3D动画,证明了合成数据在真实世界四足动物姿态估计中的可行性。
- 系统在复杂场景(如多只动物、严重遮挡、低对比度环境)下仍面临挑战,表明在数据与模型设计方面仍有改进空间。
- 通过使用逐层学习率和SGD优化器微调超参数,提升了模型在真实测试数据上的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。