Skip to main content
QUICK REVIEW

[논문 리뷰] TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation

Li Ding, Chenliang Xu|arXiv (Cornell University)|2017. 05. 22.
Human Pose and Action Recognition참고 문헌 22인용 수 54
한 줄 요약

TricorNet은 영상 동작 분할을 위해 지역적 모션 변화와 장기 동작 의존성을 포착하기 위해 시간적 컨볼루션 인코더와 양방향 LSTM 디코더를 결합하여, 세 개의 공개 데이터셋에서 최첨단 혹은 경쟁력 있는 성과를 달성한다.

ABSTRACT

Action segmentation as a milestone towards building automatic systems to understand untrimmed videos has received considerable attention in the recent years. It is typically being modeled as a sequence labeling problem but contains intrinsic and sufficient differences than text parsing or speech processing. In this paper, we introduce a novel hybrid temporal convolutional and recurrent network (TricorNet), which has an encoder-decoder architecture: the encoder consists of a hierarchy of temporal convolutional kernels that capture the local motion changes of different actions; the decoder is a hierarchy of recurrent neural networks that are able to learn and memorize long-term action dependencies after the encoding stage. Our model is simple but extremely effective in terms of video sequence labeling. The experimental results on three public action segmentation datasets have shown that the proposed model achieves superior performance over the state of the art.

연구 동기 및 목표

  • 트리밍되지 않은 비디오에서 지역 모션 변화와 장거리 액션 의존성을 명시적으로 모델링하여 액션 세그먼테이션을 개선하려고 한다.
  • 시간적 컨볼루션 인코더와 Bi-LSTM 디코더를 갖는 하이브리드 인코더–디코더 아키텍처를 제안한다.
  • 네트워크 내에서 장거리 의존성을 포착하는 위치가 성능에 미치는 영향을 이해하기 위해 모델 변형을 평가한다.

제안 방법

  • K=2 계층의 인코더–디코더 아키텍처(경험적으로 선택).
  • 인코더: 지역 모션 변화를 포착하기 위해 최대 풀링을 포함한 1D 시간적 컨볼루션의 계층 구조.
  • 중간 계층은 디코더의 입력으로 작용한다; 디코더: 업샘플링을 통한 Bi-LSTM의 계층 구조로 프레임 수준 라벨을 생성.
  • 최종 프레임 수준 예측은 시간 단계당 액션 클래스에 대한 소프트맥스(smax)로 얻어진다.
  • 컨볼루션 층의 활성화는 Normalized ReLU를 사용하고, 교차 엔트로피 손실, SGD/ADAM 최적화, 드롭아웃으로 학습한다.

실험 결과

연구 질문

  • RQ1하이브리드 시간적 컨볼루션 인코더와 순환 디코더가 비디오 액션 세그멘테이션에서 지역 모션 변화와 장기 액션 의존성 둘 다를 더 잘 모델할 수 있는가?

주요 결과

  • TricorNet은 세 데이터셋 모두에서 최상위 또는 근접 최상위 성과를 달성했다.
  • 50 Salads(중간 세분성)에서 TricorNet은 67.5% Acc, 62.8 Edit, 그리고 F1 점수는 70.1@10, 67.2@25, 56.6@50이었다.
  • Georgia Tech GTEA에서 TricorNet은 64.8% Acc를 달성했고, F1 점수는 76.0@10, 71.1@25, 59.2@50이다.
  • JHU-ISI JIGSAWS에서 TricorNet은 82.9% Acc와 86.8% Edit를 달성하여 여러 기준에서 베이스라인을 능가하고 여러 지표에서 최첨단과 일치했다.
  • 모델 변형(높음/낮음)은 경쟁력 있는 성능을 보이며, 기본 TricorNet가 일반적으로 가장 강력한 결과를 제공한다.
  • 정성적 분석은 TricorNet이 장거리 액션 의존성을 더 잘 처리하여 더 부드럽고 정확한 세그멘테이션을 생성함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.