QUICK REVIEW

[論文レビュー] A Deep Recurrent Framework for Cleaning Motion Capture Data

Utkarsh Mall, Gend Lal|arXiv (Cornell University)|Dec 9, 2017

Human Motion and Animation参考文献 19被引用数 33

ひとこと要約

本稿では、時間的整合性と関節間相関を用いて、関節ごとのフィルタを学習することで、動きキャプチャデータを能動的にノイズ除去する深層双方向LSTMフレームワーク、EBF（エンコーダー・バイデクショナル・フィルタ）を提案する。さらに、長時間の欠損を再構築するためにEBD（エンコーダー・バイデクショナル・デコーダ）ネットワークと組み合わせ、ノイズ分布やアクションタイプに関する事前知識がなくても、ノイズあり・欠損ありの動きデータにおいて最先端の性能を達成する。

ABSTRACT

We present a deep, bidirectional, recurrent framework for cleaning noisy and incomplete motion capture data. It exploits temporal coherence and joint correlations to infer adaptive filters for each joint in each frame. A single model can be trained to denoise a heterogeneous mix of action types, under substantial amounts of noise. A signal that has both noise and gaps is preprocessed with a second bidirectional network that synthesizes missing frames from surrounding context. The approach handles a wide variety of noise types and long gaps, does not rely on knowledge of the noise distribution, and operates in a streaming setting. We validate our approach through extensive evaluations on noise both in joint angles and in joint positions, and show that it improves upon various alternatives.

研究の動機と目的

ノイズ分布やアクションタイプに関する事前知識なしに、多様なノイズタイプと欠損を伴う動きキャプチャデータのクリーニングに挑むこと。
異なる動きタイプや関節ダイナミクスに適応可能なリアルタイム・ストリーミング対応ソリューションを開発すること。
文脈的な時間的および関節相関モデリングを用いて、長時間の欠損セグメントに対する耐障害性のあるギャップ補完を可能にすること。
多様な動きタイプやノイズパターンに一般化可能な統合的でトレーニング可能なフレームワークを構築すること。
動きキャプチャデータクリーニングパイプラインにおけるマニュアルチューニングやアクション固有の前処理の必要性を排除すること。

提案手法

時間的文脈と関節間相関に基づき、各フレームに対して関節ごとの適応的で低域透過フィルタを予測する、双方向LSTMを用いたEBFネットワークを活用する。
動きのフェーズと周波数を動的にモデリングするエンコーダー・BiLSTM・フィルタアーキテクチャを採用し、過剰または不十分な平滑化を回避する。
明示的なノイズモデリングがなくても、ゼロでない平均値や時間的に変化するノイズに対処できるデバイアス補正コンponentを導入する。
周囲の文脈と学習された関節ダイナミクスを用いて欠損フレームを合成するため、EBDネットワーク（ERDの双方向バージョン）を2度目として適用する。
ペアドノイズ/クリーンな動きデータを用いて、EBFおよびEBDネットワークを教師あり学習で訓練し、ノイズ除去とギャップ補完のエンドツーエンド学習を可能にする。
最小遅延（1フレームあたり1ms未塔）でストリーミング処理を実現し、リアルタイム応用を可能にする。

実験結果

リサーチクエスチョン

RQ1マニュアルチューニングなしに、多様な動きタイプやノイズ分布に一般化可能な単一の深層再帰モデルは可能か？
RQ2双方向LSTMは、ダイナミクスが変化し、高ノイズレベルの動きデータに対して、適応的フィルタリングをどれほど効果的に学習できるか？
RQ3周囲の文脈のみを用いて、最大5秒の長時間ギャップをどれほど正確に再構築できるか？
RQ4ギャップ補完にEBD、ノイズ除去にEBFを組み合わせたモデルは、補間＋フィルタリングといった標準ベースラインを上回るか？
RQ5多様なデータの混合物で学習した場合、未学習の動きタイプやノイズパターンに対してもモデルは一般化可能か？

主な発見

EBF+EBDパイプラインは、すべてのテスト動作においてRMS誤差ですべてのベースラインを上回り、特に長時間ギャップ（最大600フレーム）で顕著な優位性を示した。
EBDネットワークは、最大5秒の欠損セグメントに対しても、欠損した動きシーケンスを正常に再構築できたが、補間ベースの手法は完全に失敗した。
EBFネットワークは、高振幅でガウス分布でない、ゼロでない平均値を持つノイズに対しても、関節信号のノイズ除去を効果的に行った。特に、各動きタイプの訓練データが限られた場合でも有効であった。
1フレームあたり1ms未塔の処理時間でリアルタイム動作が可能であり、動きデータのライブストリーミングを実現した。
多様なアクションで学習した場合、未学習の動きタイプ（例：「ジャンプ」や「走る」）に対してもモデルは一般化可能であったが、ドメイン内例が追加されると性能が向上した。
合成ノイズとギャップを含む新規に導入されたベンチマークデータセットにおいて、最先端の結果を達成し、複数のノイズ分布およびギャップ分布に対して高い耐障害性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。