Skip to main content
QUICK REVIEW

[논문 리뷰] Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector

Jia-Xing Zhong, Nannan Li|arXiv (Cornell University)|2018. 07. 09.
Human Pose and Action Recognition참고 문헌 59인용 수 29
한 줄 요약

이 논문은 분류기와 검출기 간의 갈등을 해결하기 위해 점진적으로 침식된 영상 세그먼트에서 반복적으로 분류기를 훈련하는 약한 감독 시간 행동 검출 방법을 제안한다. 여러 침식 단계에서의 예측을 수집하고, 완전히 연결된 CRF(FC-CRF)를 통해 보정함으로써, THUMOS'14와 ActivityNet에서 최신 기술 수준(SOTA) 성능을 달성한다. 이는 많은 강한 감독 방법을 능가한다.

ABSTRACT

Weakly supervised temporal action detection is a Herculean task in understanding untrimmed videos, since no supervisory signal except the video-level category label is available on training data. Under the supervision of category labels, weakly supervised detectors are usually built upon classifiers. However, there is an inherent contradiction between classifier and detector; i.e., a classifier in pursuit of high classification performance prefers top-level discriminative video clips that are extremely fragmentary, whereas a detector is obliged to discover the whole action instance without missing any relevant snippet. To reconcile this contradiction, we train a detector by driving a series of classifiers to find new actionness clips progressively, via step-by-step erasion from a complete video. During the test phase, all we need to do is to collect detection results from the one-by-one trained classifiers at various erasing steps. To assist in the collection process, a fully connected conditional random field is established to refine the temporal localization outputs. We evaluate our approach on two prevailing datasets, THUMOS'14 and ActivityNet. The experiments show that our detector advances state-of-the-art weakly supervised temporal action detection results, and even compares with quite a few strongly supervised methods.

연구 동기 및 목표

  • 약한 감독 시간 행동 검출에서 분류기(짧고 정확도가 높은 클립을 선호함)와 검출기(완전한 행동 세그먼트가 필요함) 사이의 본질적 갈등을 해결하기 위해.
  • 훈련 중에 고신뢰도 클립을 점진적으로 제거함으로써, 지표 경계 애너테이션 없이도 완전한 행동 인스턴스를 검출할 수 있도록 하기 위해.
  • 행동 세그먼트가 시간적으로 연속적이고 부드럽게 이루어져야 한다는 사전 지식을 활용하여, 완전히 연결된 조건부 랜덤 필드(FC-CRF)를 도입함으로써 검출의 강건성과 연속성을 향상시키기 위해.
  • 강한 감독이나 약한 감독 프포지션을 필요로 하지 않고 영상 수준의 카테고리 레이블만으로도 강한 감독 방법과 비교할 만한 경쟁력을 갖춘 성능을 달성하기 위해.

제안 방법

  • 비트림 영상에서 순차적으로 행동 분류기를 훈련시키며, 각 후속 분류기는 이전 분류기가 식별한 가장 분류력 있는 클립을 제거한 영상에서 작동한다.
  • 침식 과정은 단계별로 수행되어, 새로운 분류기가 이전에 간과된 낮은 신뢰도의 행동 스니펫을 발견하도록 유도한다.
  • 추론 단계에서는 모든 침식 단계에서의 분류기 검출 결과를 수집하여 전체 행동 세그먼트의 포괄적인 예측을 형성한다.
  • 완전히 연결된 조건부 랜덤 필드(FC-CRF)를 적용하여 수집된 예측을 보정하며, 행동 세그먼트가 시간적으로 연속적이고 부드러워야 한다는 사전 지식을 활용한다.
  • FC-CRF는 분리된 검출 결과를 재연결하고 고립된 가짜 양성 예측을 억제함으로써 검출 정확도를 향상시킨다.
  • 이 방법은 강한 감독이나 약한 감독 프포지션을 필요로 하지 않으며, 영상 수준의 레이블만을 사용한다.

실험 결과

연구 질문

  • RQ1분류기가 자연스럽게 짧고 정확도가 높은 스니펫을 선호하는 데 비해, 어떻게 약한 감독 검출기가 완전한 행동 인스턴스를 검출할 수 있는가?
  • RQ2영상에서 고신뢰도 클립을 반복적으로 침식함으로써, 후속 분류기가 점점 더 다양한 상호보완적인 행동 세그먼트를 발견할 수 있는가?
  • RQ3완전히 연결된 CRF가 약한 감독 환경에서 예측의 시간 연속성을 강제함으로써 검출 성능을 얼마나 향상시킬 수 있는가?
  • RQ4제안된 방법은 표준 벤치마크에서 최신 기술 수준의 약한 및 강한 감독 방법과 비교해 어떻게 성능을 내는가?

주요 결과

  • THUMOS'14에서 제안된 방법은 IoU 임계값 0.1에서 평균 평균 정밀도(mAP) 45.8%를 달성하여 이전의 모든 약한 감독 방법을 능가한다.
  • ActivityNet에서는 IoU 0.5에서 27.3% mAP를 기록하여 기존의 약한 감독 접근법을 능가하고, 일부 강한 감독 방법과 비교해도 동등하거나 슈퍼어리어어를 기록한다.
  • 두 번째 단계 검출 또는 복잡한 프포지션 생성을 사용하는 최신 기술 수준의 강한 감독 모델들과 비교해도 경쟁력 있는 성능을 달성한다.
  • FC-CRF는 특히 산산이 흩어지거나 고립된 검출이 많은 경우에 노이즈를 줄이고 예측을 재연결함으로써 검출 품질을 크게 향상시킨다.
  • 제거 실험(ablation study)는 단계적 침식이 다양한 행동 스니펫을 발견하는 데 필수적임을 확인하며, 이 메커니즘을 제거할 경우 중복되고 불완전한 검출이 발생한다.
  • 모델은 복잡하거나 비균일한 시간적 구조를 가진 행동 카테고리에 대해서도 잘 일반화되며, 애매한 행동을 포함한 질적 실패 사례를 통해 이를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.