Skip to main content
QUICK REVIEW

[논문 리뷰] Learning recurrent representations for hierarchical behavior modeling

Eyrún Eyjólfsdóttir, Kristin Branson|CaltechAUTHORS (California Institute of Technology)|2016. 11. 01.
Human Motion and Animation인용 수 24
한 줄 요약

이 논문은 레이블이 있는 데이터와 없는 데이터를 동시에 사용하여 행동 분류와 운동 예측을 공동으로 학습하는 계층적 순환 신경망을 제안한다. 이는 레이블이 부족한 상황에서도 행동 검출 성능을 향상시키고, 성별이나 글쓰는 사람의 신원과 같은 고수준 행동 특징을 무 supervision으로 발견할 수 있도록 한다. 모델은 분류 기반 및 생성 기반 순환 유닛 간의 횡방향 연결을 사용하여 상위 레이어가 추상적인 행동 현상을 표현하고 하위 레이어가 저수준의 운동 동역학을 인코딩하도록 한다.

ABSTRACT

We propose a framework for detecting action patterns from motion sequences and modeling the sensory-motor relationship of animals, using a generative recurrent neural network. The network has a discriminative part (classifying actions) and a generative part (predicting motion), whose recurrent cells are laterally connected, allowing higher levels of the network to represent high level phenomena. We test our framework on two types of data, fruit fly behavior and online handwriting. Our results show that 1) taking advantage of unlabeled sequences, by predicting future motion, significantly improves action detection performance when training labels are scarce, 2) the network learns to represent high level phenomena such as writer identity and fly gender, without supervision, and 3) simulated motion trajectories, generated by treating motion prediction as input to the network, look realistic and may be used to qualitatively evaluate whether the model has learnt generative control rules.

연구 동기 및 목표

  • 레이블이 있는 및 없는 운동 시퀀스를 사용하여 감각-운동 관계를 모델링하는 프레임워크를 개발한다.
  • 전문가 레이블 데이터가 제한적일 경우 운동 예측을 보조 과제로 사용하여 행동 분류 성능을 향상시킨다.
  • 성별 또는 글쓰는 사람의 신원과 같은 고수준 행동 특징을 명시적 supervision 없이 발견한다.
  • 학습된 생성 제어 규칙을 반영한 현실적인 운동 궤적을 생성하여 정성적 모델 평가를 가능하게 한다.
  • 예측된 운동을 반복적으로 네트워크에 피드백하여 에이전트 행동을 시뮬레이션할 수 있도록 한다.

제안 방법

  • 분류 기반(행동 분류) 및 생성 기반(운동 예측) 순환 유닛 간에 횡방향 연결을 갖는 깊이 있는 계층적 RNN을 사용하는 프레임워크를 도입한다.
  • 운동 예측은 이산적 박스에 대한 확률 분포로 설정되어 있어 다양한 현실적인 궤적을 확률적으로 생성할 수 있다.
  • 행동 분류에 대한 교차 엔트로피 손실과 운동 예측에 대한 음의 로그우도 손실을 조합하여 네트워크를 엔드 투 엔드로 훈련시킨다.
  • t-SNE를 사용하여 은닉 상태 표현을 시각화하여 네트워크 레이어 간의 행동 특징의 계층적 추상화를 분석한다.
  • 반도체 감시 및 비감시 훈련 제도를 모두 적용하여 파리 행동(FlyBowl) 및 온라인 손글씨(IAM-OnDB) 데이터셋에서 모델을 평가한다.
  • 운동 예측을 반복적으로 네트워크에 피드백하여 시뮬레이션된 궤적을 생성함으로써 학습된 제어 규칙의 정성적 평가를 수행한다.

실험 결과

연구 질문

  • RQ1레이블이 부족한 상황에서 운동 예측이 보조 과제로 작용하여 행동 분류 성능을 향상시키는 데 효과적인가?
  • RQ2모델은 supervision 없이도 성별이나 글쓰는 사람의 신원과 같은 고수준 행동 특징을 얼마나 잘 발견할 수 있는가?
  • RQ3은닉 상태가 행동 정보를 계층적으로 표현하는가? 상위 레이어는 추상적인 현상을, 하위 레이어는 저수준의 동역학을 포착하는가?
  • RQ4모델은 행동의 기본 생성 제어 규칙을 반영한 현실적인 운동 궤적을 생성할 수 있는가?
  • RQ5분류 기반 및 생성 기반 유닛 간 횡방향 연결은 네트워크가 계층적 행동 구조를 표현하는 데 어떤 영향을 미치는가?

주요 결과

  • 레이블이 제한된 상황에서 운동 예측을 보조 과제로 사용함으로써 행동 검출 성능이 크게 향상되며, 이는 비라벨 시퀀스로부터 유용한 시간적 동역학을 학습하기 때문이다.
  • t-SNE 시각화 결과에 따르면, 상위 생성 레이어에서 성별이나 글쓰는 사람의 신원과 같은 고수준 행동 특징을 supervision 없이도 학습하고 있음을 확인할 수 있다.
  • 모델가 생성한 시뮬레이션된 운동 궤적은 인간 관찰자에게 현실적으로 보이며, 특정 분류 유닛을 활성화함으로써 조작 가능하다. 이는 모델이 의미 있는 제어 규칙을 학습했다는 것을 시사한다.
  • 상위 생성 레이어는 글쓰는 사람의 신원을 가장 효과적으로 포착하지만, 하위 레이어는 획 길이와 날개 확장 정도를 포착함으로써 행동 특징의 계층적 추상화를 보여준다.
  • 횡방향 연결이 없는 모델은 어떤 은닉 레이어에서도 글쓰는 사람의 신원과 같은 고수준 특징을 표현하지 못함으로써, 제안된 아키텍처가 계층적 추상화 학습에 필수적임을 확인한다.
  • 합성 궤적과 시뮬레이션 궤적을 비교한 결과, 특정 은닉 유닛에서 날개 확장 및 회전 행동과 같은 제어 규칙을 효과적으로 학습하고 있음을 검증할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.