Skip to main content
QUICK REVIEW

[論文レビュー] Learning recurrent representations for hierarchical behavior modeling

Eyrún Eyjólfsdóttir, Kristin Branson|CaltechAUTHORS (California Institute of Technology)|Nov 1, 2016
Human Motion and Animation被引用数 24
ひとこと要約

本稿では、ラベル付きおよびラベルなしデータを併用して、行動分類と運動予測を統合的に学習する階層的再帰ニューラルネットワークを提案する。これにより、ラベルが限られた状況下でも行動検出性能が向上し、性別やライター識別子といった高レベルの行動的特徴の教師なし発見が可能になる。モデルは、識別的(行動分類)と生成的(運動予測)な再帰ユニットの間に横方向の接続を設けることで、上位層が抽象的な行動現象を表現し、下位層が低レベルのダイナミクスをエンコードできるようにする。

ABSTRACT

We propose a framework for detecting action patterns from motion sequences and modeling the sensory-motor relationship of animals, using a generative recurrent neural network. The network has a discriminative part (classifying actions) and a generative part (predicting motion), whose recurrent cells are laterally connected, allowing higher levels of the network to represent high level phenomena. We test our framework on two types of data, fruit fly behavior and online handwriting. Our results show that 1) taking advantage of unlabeled sequences, by predicting future motion, significantly improves action detection performance when training labels are scarce, 2) the network learns to represent high level phenomena such as writer identity and fly gender, without supervision, and 3) simulated motion trajectories, generated by treating motion prediction as input to the network, look realistic and may be used to qualitatively evaluate whether the model has learnt generative control rules.

研究の動機と目的

  • ラベル付きおよびラベルなしの運動シーケンスを用いて、行動における感覚運動的関係をモデル化するフレームワークの開発。
  • 専門家ラベル付きデータが限られる状況で、運動予測を補助タスクとして用いることで、行動分類の性能を向上させること。
  • 性別やライター識別子といった高レベルの行動的特徴を、明示的な教師信号なしに発見すること。
  • 学習された生成的制御ルールを反映した現実的な運動軌道を生成し、定性的なモデル評価を可能とすること。
  • 予測された運動を繰り返しネットワークに戻すことで、エージェント行動のシミュレーションを可能とすること。

提案手法

  • フレームワークは、識別的(行動分類)と生成的(運動予測)な再帰ユニットの間に横方向接続を持つ深層階層的RNNを採用する。
  • 運動予測は離散的なビンの確率分布として定式化され、多様で現実的な軌道の確率的生成を可能にする。
  • 行動分類のための交差エントロピー損失と運動予測のための負の対数尤度損失の組み合わせを用いて、エンド・ツー・エンドでネットワークを訓練する。
  • t-SNEを用いて隠れ状態の表現を可視化し、ネットワークの各層における行動的特徴の階層的抽象化を分析する。
  • モデルは、果実ハエの行動(FlyBowl)およびオンライン筆圧入力(IAM-OnDB)データセット上で評価され、半教師ありおよび教師なしの学習設定を想定する。
  • 予測された運動を再帰的にネットワークに戻すことで、シミュレートされた軌道を生成し、学習された制御ルールの定性的な評価を可能にする。

実験結果

リサーチクエスチョン

  • RQ1ラベル付きデータが限られる状況で、運動予測が補助タスクとして有効に機能し、行動分類性能を向上させることができるか?
  • RQ2教師なしで、性別やライター識別子といった高レベルの行動的特徴を、どの程度正確に発見できるか?
  • RQ3ネットワークの隠れ状態は、上位層が抽象的な現象を捉え、下位層が低レベルのダイナミクスを捉えるという階層的構造で行動的情報を表現しているか?
  • RQ4モデルは、学習された生成的制御ルールを反映した現実的な運動軌道を生成できるか?
  • RQ5識別的ユニットと生成的ユニットの間の横方向接続は、階層的行動的構造を表現する能力をどのように向上させるか?

主な発見

  • ラベル付きデータが限られる状況で、運動予測を補助タスクとして用いることで、行動検出性能が顕著に向上する。これは、未ラベルシーケンスから有用な時間的ダイナミクスを学習できるためである。
  • t-SNE可視化により、上位の生成的層が、性別やライター識別子といった高レベルの行動的特徴を、教師なしで学習していることが示された。
  • モデルが生成するシミュレートされた運動軌道は、人間の観察者にとって現実的であると感じられ、特定の識別的ユニットを活性化することで操作可能である。これは、モデルが意味のある制御ルールを学習していることを示している。
  • 上位の生成的層がライター識別子を最も効果的に捉えている一方で、下位層はストローク長さや翼の伸展を捉えている。これは、行動的特徴の階層的抽象化が実現されていることを示している。
  • 横方向接続のないモデルでは、いかなる隠れ層でもライター識別子のような高レベル特徴を正しく表現できず、本研究で提案するアーキテクチャが階層的表現学習に不可欠であることが確認された。
  • 合成軌道とシミュレート軌道を比較することで、モデルが翼の伸展や旋回行動といった制御ルールを、特定の隠れユニットに正しく表現していることが検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。