QUICK REVIEW

[论文解读] Learning recurrent representations for hierarchical behavior modeling

Eyrún Eyjólfsdóttir, Kristin Branson|CaltechAUTHORS (California Institute of Technology)|Nov 1, 2016

Human Motion and Animation被引用 24

一句话总结

本文提出了一种分层循环神经网络，通过同时使用有标签和无标签数据，联合学习动作分类与运动预测，从而在标签稀缺的情况下提升动作检测性能，并实现对性别和作者身份等高层行为特征的无监督发现。该模型在判别性与生成性循环单元之间引入侧向连接，使高层能够表示抽象的行为现象，而低层则编码低层次的动力学特征。

ABSTRACT

We propose a framework for detecting action patterns from motion sequences and modeling the sensory-motor relationship of animals, using a generative recurrent neural network. The network has a discriminative part (classifying actions) and a generative part (predicting motion), whose recurrent cells are laterally connected, allowing higher levels of the network to represent high level phenomena. We test our framework on two types of data, fruit fly behavior and online handwriting. Our results show that 1) taking advantage of unlabeled sequences, by predicting future motion, significantly improves action detection performance when training labels are scarce, 2) the network learns to represent high level phenomena such as writer identity and fly gender, without supervision, and 3) simulated motion trajectories, generated by treating motion prediction as input to the network, look realistic and may be used to qualitatively evaluate whether the model has learnt generative control rules.

研究动机与目标

开发一种利用有标签和无标签运动序列建模感官-运动关系的行为框架。
通过将运动预测作为辅助任务，在专家标注数据有限的情况下提升动作分类性能。
在无显式监督的情况下发现高层行为特征（如性别或作者身份）。
生成反映所学生成控制规则的逼真运动轨迹，以实现对模型的定性评估。
通过将预测运动迭代反馈至网络，实现对智能体行为的模拟。

提出的方法

该框架采用深层分层RNN，其中判别性（动作分类）与生成性（运动预测）循环单元之间存在侧向连接。
将运动预测表述为离散区间的概率分布，从而实现多样化且逼真的轨迹生成。
通过交叉熵损失（用于动作分类）与负对数似然损失（用于运动预测）的组合，实现端到端训练。
使用t-SNE可视化隐藏状态表示，以分析网络各层对行为特征的分层抽象。
在果蝇行为（FlyBowl）与在线手写（IAM-OnDB）数据集上评估模型，采用半监督与无监督训练设置。
通过将运动预测结果反馈至网络生成模拟轨迹，实现对所学控制规则的定性评估。

实验结果

研究问题

RQ1当标注数据稀缺时，运动预测能否作为有效的辅助任务以提升动作分类性能？
RQ2模型在无任何监督的情况下，能否有效发现高层行为特征（如性别或作者身份）？
RQ3网络的隐藏状态是否分层表示行为信息，其中高层捕捉抽象现象，低层捕捉低层次动力学？
RQ4模型能否生成反映行为底层生成控制规则的逼真运动轨迹？
RQ5判别性与生成性单元之间的侧向连接如何增强网络对分层行为结构的表征能力？

主要发现

作为辅助任务的运动预测显著提升了动作检测性能，尤其在标注数据有限时，得益于模型从无标签序列中学习到有用的时序动态。
通过t-SNE可视化显示，网络在顶层生成层中无监督地学习到了如果蝇性别和作者身份等高层行为特征。
由模型生成的模拟运动轨迹对人类观察者而言显得逼真，且可通过激活特定判别性单元进行操控，表明模型已学习到有意义的控制规则。
顶层生成层最有效地捕捉了作者身份，而较低层则捕捉了笔画长度与翅膀伸展程度，表明行为特征实现了分层抽象。
无侧向连接的模型在任何隐藏层中均无法表征作者身份等高层特征，证实了所提架构在分层表征学习中的关键作用。
通过对比合成轨迹与模拟轨迹，验证了模型成功在特定隐藏单元中学习到了如翅膀伸展与转向行为等控制规则。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。