Skip to main content
QUICK REVIEW

[논문 리뷰] Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment

Li Ding, Chenliang Xu|arXiv (Cornell University)|2018. 03. 28.
Human Pose and Action Recognition참고 문헌 21인용 수 60
한 줄 요약

효율적인 약지도감 행동 구간화 및 정렬을 위한 Temporal Convolutional Feature Pyramid Network (TCFPN)과 Iterative Soft Boundary Assignment (ISBA)를 소개하고, Breakfast와 Hollywood Extended에서 강력한 성과를 달성한다.

ABSTRACT

In this work, we address the task of weakly-supervised human action segmentation in long, untrimmed videos. Recent methods have relied on expensive learning models, such as Recurrent Neural Networks (RNN) and Hidden Markov Models (HMM). However, these methods suffer from expensive computational cost, thus are unable to be deployed in large scale. To overcome the limitations, the keys to our design are efficiency and scalability. We propose a novel action modeling framework, which consists of a new temporal convolutional network, named Temporal Convolutional Feature Pyramid Network (TCFPN), for predicting frame-wise action labels, and a novel training strategy for weakly-supervised sequence modeling, named Iterative Soft Boundary Assignment (ISBA), to align action sequences and update the network in an iterative fashion. The proposed framework is evaluated on two benchmark datasets, Breakfast and Hollywood Extended, with four different evaluation metrics. Extensive experimental results show that our methods achieve competitive or superior performance to state-of-the-art methods.

연구 동기 및 목표

  • 길고 긴 비디오에서 확장 가능한 약지도감 행동 구간화의 필요성을 해결한다.
  • 반복 학습에 적합한 빠르고 비순환(non-recurrent) 행동 모델을 개발한다.
  • 전사로부터의 감독을 향상시키는 소프트 경계 메커니즘을 제안한다.
  • 네트워크 예측과의 정렬을 위해 학습 중에 행동 전사를 반복적으로 다듬는다.

제안 방법

  • 인코더-디코더 시간 모델로서 Temporal Convolutional Feature Pyramid Network (TCFPN)을 제안하며, 거친 특징과 미세 특징을 융합하기 위한 측면 연결(lateral connections)을 포함한다.
  • 선형 확률 보간을 통한 소프트 경계를 사용하여 행동 전사에서 학습 타깃을 생성하는 Iterative Soft Boundary Assignment (ISBA)를 도입한다.
  • ISBA가 네트워크 추론에 기반해 전사를 다듬고 모델을 재학습하는 EM 유사 반복 루프를 사용한다.
  • ISBA 반복 중 과적합을 방지하기 위해 비디오 수준 인식 손실을 기반으로 한 중단 기준을 구현한다.
  • Breakfast 및 Hollywood Extended에서 네 가지 지표로 학습 및 평가한다(프레임 단위 정확도, 배경 제외 정확도, IoU, IoD).
Figure 1: Overview of the proposed framework with Iterative Soft Boundary Assignment (ISBA) and Temporal Convolutional Feature Pyramid Network(TCFPN).
Figure 1: Overview of the proposed framework with Iterative Soft Boundary Assignment (ISBA) and Temporal Convolutional Feature Pyramid Network(TCFPN).

실험 결과

연구 질문

  • RQ1비순환적 합성곱 시간 모델이 약지도감 행동 구간화를 위한 RNN/HMM 기반 방법과 경쟁할 수 있는가?
  • RQ2소프트 경계 감독이 하드한 선형 매핑과 비교하여 행동 전사로부터의 학습을 향상시키는가?
  • RQ3중단 기준과 결합된 반복 전사 다듬기가 강력한 약지도감 정렬 및 구간화를 제공하는가?
  • RQ4제안된 ISBA 프레임워크가 Breakfast 및 Hollywood Extended에서 다중 지표에 걸쳐 최첨단 방법과 어떻게 비교되는가?

주요 결과

  • TCFPN이 평가된 데이터셋에서 이전의 완전 지도 기반 기준선을 능가하고 경쟁력 있는 지표를 보인다.
  • ISBA가 강화된 학습(TCFPN+ISBA)은 Breakfast와 Hollywood Extended에서 약지도면 구간화와 정렬에 우수한 성과를 달성한다.
  • 소프트 경계 할당은 하드 전사 매핑에 비해 여러 평가 지표를 개선하고 수렴 속도를 높인다.
  • 비디오 수준 인식 손실을 이용한 제안된 중단 기준은 과적합 전에 학습을 효과적으로 중단하고 최적의 반복을 선택한다.
  • 프레임워크는 순환 및 마코프 모델을 피함으로써 효율성과 확장성을 강조하고 더 빠른 학습을 가능하게 한다.
Figure 2: Structure overview of TCFPN. The proposed network extends the original ED-TCN [ 12 ] by adding lateral connections [ 13 ] between encoder and decoder.
Figure 2: Structure overview of TCFPN. The proposed network extends the original ED-TCN [ 12 ] by adding lateral connections [ 13 ] between encoder and decoder.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.