QUICK REVIEW

[論文レビュー] Dilated Temporal Fully-Convolutional Network for Semantic Segmentation of Motion Capture Data

Noshaba Cheema, S. Maryam Hosseini|arXiv (Cornell University)|Jan 1, 2018

Video Analysis and Summarization参考文献 9被引用数 5

ひとこと要約

本論文では、3次元モーションキャプチャデータの自動意味的セグメンテーションのための拡張時間的完全畳み込みネットワーク（DTFCN）を提案する。3次元モーションシーケンスをRGBモーション画像に変換し、指数的受容 field の拡大を伴うスタックされた1次元の拡張畳み込みを適用する。モデルは91.64%のテスト精度を達成し、80%のノイズのあるラベルに対しても頑健であることが示され、アクションセグメンテーションタスクにおいて最先端のモデルを上回る性能を示した。

ABSTRACT

Semantic segmentation of motion capture sequences plays a key part in many data-driven motion synthesis frameworks. It is a preprocessing step in which long recordings of motion capture sequences are partitioned into smaller segments. Afterwards, additional methods like statistical modeling can be applied to each group of structurally-similar segments to learn an abstract motion manifold. The segmentation task however often remains a manual task, which increases the effort and cost of generating large-scale motion databases. We therefore propose an automatic framework for semantic segmentation of motion capture data using a dilated temporal fully-convolutional network. Our model outperforms a state-of-the-art model in action segmentation, as well as three networks for sequence modeling. We further show our model is robust against high noisy training labels.

研究の動機と目的

長時間のモーションキャプチャシーケンスの意味的セグメンテーションを自動化すること。これは現在、人的作業に依存する手作業プロセスである。
RNNのシーケンスモデリングにおける限界（勾配消失や並列処理の困難さ）を、時間的畳み込みネットワーク（TCN）を活用することで克服すること。
拡張畳み込みを用いて長距離の時間的依存関係を活用することで、モーションキャプチャデータにおけるアクションセグメンテーションの精度を向上させること。
モーションデータベース作成において一般的な問題である人為的ラベルノイズに対して、モデルの頑健性を高めること。
大規模なモーションデータベース構築のためのスケーラブルで効率的なディープラーニングフレームワークの開発すること。

提案手法

3次元モーションキャプチャデータを、各列がフレームに対応するRGB画像表現に変換する。ジョイント位置はRGB値として符号化される。
ジョイント数と一致するカーネル高さを持つ2次元畳み込み層を適用し、時間方向にのみ作用させる。
指数的に増加する拡張率（d = w^(l−1)）を持つ4層の1次元時間的因果なし拡張畳み込み層をスタックし、解像度を低下させずに受容 field を拡大する。
最終的なSoftmax層の前に正規化ReLU活性化関数を用いることで、分類精度を向上させる。
ピクセル単位のアクション分類と元のシーケンス長に一致するアップサンプリングを実現するため、全結合層にSoftmaxを適用する。
70本のモーションシーケンスからなるデータセットを用い、7-fold交差検証と100エポックの学習を実施。最適化にはAdamを使用する。

実験結果

リサーチクエスチョン

RQ1拡張時間的完全畳み込みネットワーク（DTFCN）は、意味的セグメンテーションのためのモーションキャプチャシーケンスにおける長距離時間的依存関係を効果的に学習できるか？
RQ2ED-TCN、WaveNet、TDNN、LSTMといった最先端モデルと比較して、本モデルのDTFCNはモーションアクションセグメンテーションにおいてどの程度の性能を示すか？
RQ3モーションデータベースのアノテーションにおいて一般的な問題であるノイズや誤ったラベルを含む学習データに対して、モデルはどの程度の耐性を示すか？
RQ4正確なセグメンテーションに最適な受容 field サイズは何か？また、受容 field の拡大に伴い、モデルの複雑さはどのようにスケーリングされるか？

主な発見

提案されたDTFCNは、同じモーションキャプチャデータセットにおいて、ED-TCN（88.47%）、WaveNet（88.69%）、TDNN（85.54%）、LSTM（81.95%）を上回る91.64%のテスト精度を達成した。
カーネル幅 w = 3 を用いた342フレームの受容 field サイズが、3125フレームの非常に大きな受容 field と同等の性能を示し、パラメータ数を438Kも削減した。
80%のノイズのあるラベルで学習させても、モデルは88%以上のテスト精度を維持し、ラベルノイズに対して強い耐性を示した。
Softmax層の前に正規化ReLU活性化関数を用いることで、標準ReLUと比較して分類精度が向上した。
さまざまな受容 field サイズにおいてモデルの性能が安定しており、正確なセグメンテーションには中程度の受容 field で十分であることが示された。
『左足を踏み出す』と『左足を踏み出す』といった、過去および未来の文脈を必要とする微細な動きの区別に対しても、本アーキテクチャは有効である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。