QUICK REVIEW

[論文レビュー] A Neural Network Approach to Missing Marker Reconstruction in Human Motion Capture

Taras Kucherenko, Jonas Beskow|arXiv (Cornell University)|Mar 7, 2018

Human Pose and Action Recognition参考文献 23被引用数 28

ひとこと要約

本稿では、LSTMおよび時間窓ベースのニューラルネットワークを用いた深層学習的手法を提案し、人体運動の動きにおける空間的・時間的相関を活用することで、欠落したマーカーを再構築する。この手法は、複雑な動きでさえも長時間にわたる欠落部分の再構築において最先端の性能を達成しており、将来のデータに依存しないオンライン処理が可能であり、従来の線形手法や先行するニューラルネットワーク手法を上回っている。

ABSTRACT

Optical motion capture systems have become a widely used technology in various fields, such as augmented reality, robotics, movie production, etc. Such systems use a large number of cameras to triangulate the position of optical markers.The marker positions are estimated with high accuracy. However, especially when tracking articulated bodies, a fraction of the markers in each timestep is missing from the reconstruction. In this paper, we propose to use a neural network approach to learn how human motion is temporally and spatially correlated, and reconstruct missing markers positions through this model. We experiment with two different models, one LSTM-based and one time-window-based. Both methods produce state-of-the-art results, while working online, as opposed to most of the alternative methods, which require the complete sequence to be known. The implementation is publicly available at https://github.com/Svito-zar/NN-for-Missing-Marker-Reconstruction .

研究の動機と目的

遮蔽やセンサ障害による光学的モーションキャプチャシステムにおけるマーカー欠落問題に取り組むこと。
人体運動に内在する複雑な空間的・時間的相関を学習するデータ駆動型手法を開発し、マーカー再構築の精度を向上させること。
将来のフレームに依存せずにリアルタイムで処理できるオンライン再構築を実現すること。これは、大多数の既存手法とは対照的である。
未観測の被験者や運動タイプに一般化可能であり、多様な現実世界の状況でも安定した性能を発揮すること。
長期間にわたるマーカー欠落シーケンスの再構築において、最先端の線形およびディープラーニングベース手法を上回ること。

提案手法

本手法は、2種類の異なるニューラルネットワークアーキテクチャを採用する：LSTMベースのモデルと時間窓ベースの順方向ネットワーク。
両モデルは、マーカー間の空間的・時間的依存関係を学習するために、モーションキャプチャシーケンス上でエンドツーエンドで訓練される。
入力は時間のスライディングウインドウにおける3次元マーカー位置であり、学習および推論時に欠落マーカーはマスクされる。
ネットワークは、隣接するマーカーおよび時間的文脈からのコンテキスト情報を用いて、欠落マーカーの再構築された3次元位置を出力する。
予測値と真値のマーカー位置の間の平均二乗誤差損失を用いてモデルを訓練する。
リアルタイム応用に適したオンライン推論を設計しており、フレームが到着する度に処理が行われる。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークは、人体運動の複雑な空間的・時間的相関を効果的に学習し、欠落マーカーの再構築に活用できるか？
RQ2LSTMベースのモデルと時間窓ベースの順方向ネットワークの両者において、欠落マーカー再構築の性能にどのような差が生じるか？
RQ3提案手法は、未観測の被験者や運動タイプにも一般化可能であり、安定した性能を維持できるか？
RQ4長時間にわたる欠落データにおいて、最先端の線形およびディープラーニングベース手法を上回る性能を発揮するか？
RQ5将来のフレーム情報を必要とせずに、リアルタイムでマーカーを再構築できるか？

主な発見

LSTMベースのモデルは、特に複雑な動きにおいて、長時間にわたる欠落マーカーの再構築において、時間窓ベースのモデルを上回る性能を示した。
提案手法は、特に100フレーム（約1秒）にわたり20％のマーカーが欠落している状況でも、最先端の手法を下回る再構築誤差を達成した。
一般化テストでは、LSTMモデルは未観測の被験者や運動タイプに対して、やや性能が低下するが（誤差上昇＜25％）、依然として妥当な性能を維持した。ただし、分散は増加した。
15／41のマーカーが5秒間欠落している状況でも、本手法は安定して正確な再構築を維持した。一方、補間法やBurkeらの手法は、急速に発散した。
窓ベースのモデルは、性能低下が最小限に抑えられ、さまざまな運動タイプや被験者に対して高いロバスト性を示した。
視覚的結果から、LSTMベースの再構築は真値に非常に近く、ポーズ推定における歪みは最小限に抑えられていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。