QUICK REVIEW

[論文レビュー] ZooBuilder: 2D and 3D Pose Estimation for Quadrupeds Using Synthetic Data

Abassin Sourou Fangbemi, Yi Lu|arXiv (Cornell University)|Jan 1, 2020

Human Motion and Animation参考文献 5被引用数 5

ひとこと要約

本論文では、MotionBuilderにおけるキーフレームアニメーションから生成された合成データを用いて、クマ科の四足歩行動物の2Dおよび3Dポーズ推定を可能にするエンドツーエンドのパイプライン、ZooBuilderを提示する。コヨーティングのFBXアニメーションを複数のカメラビューでレンダリングすることで、大規模で現実的であるトレーニングデータセットが作成され、そのデータを用いて微調整されたディーブラーニングモデルが、ドメインシフトの課題にもかかわらず、実際の野生動物映像から正確な3Dモーションキャプチャを推定できる。

ABSTRACT

This work introduces a novel strategy for generating synthetic training data for 2D and 3D pose estimation of animals using keyframe animations. With the objective to automate the process of creating animations for wildlife, we train several 2D and 3D pose estimation models with synthetic data, and put in place an end-to-end pipeline called ZooBuilder. The pipeline takes as input a video of an animal in the wild, and generates the corresponding 2D and 3D coordinates for each joint of the animal's skeleton. With this approach, we produce motion capture data that can be used to create animations for wildlife.

研究の動機と目的

野生の四足歩行動物、特に非ヒトの動物における2Dおよび3Dポーズ推定のためのトレーニングデータの不足に取り組む。
キーフレームアニメーションを用いて仮想モーションキャプチャルームをシミュレートするスケーラブルな合成データ生成パイプラインを開発する。
合成データとトランスファーラーニングを用いて、人間中心のポーズ推定モデルを四足歩行動物の骨格に適応させる。
実世界の映像から3Dアニメーションを生成できるエンドツーエンドのシステムを構築する。
合成データでトレーニングされたポーズモデルの一般化性能を、実際の制約のない野生動物映像でテストした際に向上させる。

提案手法

コヨーティングのFBXキーフレームアニメーションをAutodesk MotionBuilderにインポートし、12台のキャリブレート済みカメラを備えた仮想モーションキャプチャスタジオをシミュレートする。
各フレームおよびカメラビューごとに、37個の骨格関節の3Dワールド座標、カメラパラメータ、および2D画像投影をレンダリングする。
回転、スケーリング、反転、ガウスノイズ、カラージッタリング、明るさ/コントラスト調整などのデータ拡張技術を適用して、トレーニングの多様性を向上させる。
レンダリング済み画像にランダムな背景を適用して後処理を行い、現実性を高め、実世界のテストデータとのドメインシフトを低減する。
スタイル変換とグレースケール変換を用いて、データ分布を標準化し、ドメイン間でのモデル一般化を向上させる。
トランスファーラーニングとレイヤー固有の学習率を用いて、合成データセット上で2D（OpenPose）および3D（Pose_3D）ポーズ推定モデルを再トレーニングする。

実験結果

リサーチクエスチョン

RQ1コヨーティングのキーフレームアニメーションから生成された合成データが、2Dおよび3Dポーズ推定モデルのトレーニングに十分な現実性と多様性を備えているか。
RQ2グレースケール変換やスタイル変換などのドメイン適応技術が、合成トレーニングデータと実際の野生動物映像テストセットとのドメインギャップをどれほど効果的に低減できるか。
RQ3人間中心のポーズ推定モデルが、合成データとトランスファーラーニングを用いて四足歩行動物の骨格にどれほど適応可能か。
RQ4エンドツーエンドのパイプラインが、合成トレーニングデータのみを用いて、実際のコヨーティングの2D映像から3Dアニメーションを正確に推定できるか。
RQ5複雑な実世界の映像条件、例えばオクルージョン、低コントラスト、複数の被験体が存在する状況において、このパイプラインの主な制限は何か。

主な発見

グレースケール画像で2Dポーズ推定モデルをトレーニングおよびテストした結果、標準的なカラー入力に比べて予測精度が顕著に向上した。
データ標準化のためのスタイル変換を用いた場合、それを行わない場合に比べて性能が悪化した。これは、スタイル変換がキーポイント検出に重要な特徴を歪めている可能性を示唆している。
幾何的および光沢的変換を施した約17万枚の合成画像データセットにより、2Dおよび3Dポーズモデルの微調整が効果的に行えた。
ZooBuilderパイプラインは、実際の野生動物映像から3Dアニメーションを正確に推定することができ、合成データを用いた実世界の四足歩行動物ポーズ推定の可能性を示した。
複数の動物、深刻なオクルージョン、低コントラスト環境などの複雑な状況では依然として課題を抱えており、データおよびモデル設計の改善の余地があることが示された。
レイヤー固有の学習率とSGDオプティマイザーを用いたハイパーパramータの微調整により、実際のテストデータにおけるモデル一般化性能が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。