Skip to main content
QUICK REVIEW

[논문 리뷰] UntrimmedNets for Weakly Supervised Action Recognition and Detection

Limin Wang, Yuanjun Xiong|arXiv (Cornell University)|2017. 03. 09.
Human Pose and Action Recognition참고 문헌 52인용 수 32
한 줄 요약

이 논문은 비트림 영상에서 영상 수준 레이블만을 사용하여 액션 인식 및 검출 모델을 직접 훈련하는 엔드 투 엔드, 약한 감독 기반 딥 러닝 아키텍처인 UntrimmedNet을 제안한다. 하드 또는 소프트 어텐션을 통한 분류 모듈과 선택 모듈의 동시 최적화를 통해 UntrimmedNet은 타임스탬프 레이블이 없는 상황에서도 THUMOS14와 ActivityNet에서 최신 기술 수준(SOTA) 성능을 달성하며, 강한 감독 기반 방법보다도 뛰어난 성능을 보인다.

ABSTRACT

Current action recognition methods heavily rely on trimmed videos for model training. However, it is expensive and time-consuming to acquire a large-scale trimmed video dataset. This paper presents a new weakly supervised architecture, called UntrimmedNet, which is able to directly learn action recognition models from untrimmed videos without the requirement of temporal annotations of action instances. Our UntrimmedNet couples two important components, the classification module and the selection module, to learn the action models and reason about the temporal duration of action instances, respectively. These two components are implemented with feed-forward networks, and UntrimmedNet is therefore an end-to-end trainable architecture. We exploit the learned models for action recognition (WSR) and detection (WSD) on the untrimmed video datasets of THUMOS14 and ActivityNet. Although our UntrimmedNet only employs weak supervision, our method achieves performance superior or comparable to that of those strongly supervised approaches on these two datasets.

연구 동기 및 목표

  • 액션 인식을 위한 트림된 영상 데이터셋을 확보하는 데 드는 높은 비용과 실용성 부족 문제를 해결하기 위해.
  • 비트림 영상에서 영상 수준 레이블만을 사용하여 액션 모델을 직접 훈련할 수 있는 약한 감독 기반 학습 프레임워크를 개발하기 위해.
  • 정답 경계가 없이도 액션 분류를 위한 시각적 표현과 액션 인스턴스의 시간적 국소화를 함께 학습하기 위해.
  • 약한 감독이 강한 감독보다 우수하거나 동등한 성능을 내는지 입증하기 위해.

제안 방법

  • UntrimmedNet은 균일 또는 샷 기반 샘플링을 사용하여 비트림 영상에서 클립 후보를 생성한다.
  • 분류 모듈은 표준 소프트맥스 분류기를 사용하여 각 클립 후보에 대해 액션 점수를 예측한다.
  • 선택 모듈은 하드 선택(상위-k 풀링) 또는 소프트 선택(학습된 어텐션 가중치)을 사용하여 가장 분류에 유의미한 클립을 식별한다.
  • 분류 모듈과 선택 모듈의 출력은 가중치 합산을 통해 융합되어 영상 수준의 예측을 생성한다.
  • 전체 네트워크는 영상 수준 레이블을 감독 신호로 사용하여 백프로파게이션을 통해 엔드 투 엔드로 훈련된다.
  • 이 방법은 약한 감독을 사용하여 THUMOS14와 ActivityNet에서 평가되며, 어텐션 가중치와 점수에 대한 임계값을 적용하여 검출이 수행된다.

실험 결과

연구 질문

  • RQ1정확한 시간적 레이블이 전혀 없는 비트림 영상에서 액션 인식 및 검출을 효과적으로 훈련시킬 수 있는가?
  • RQ2분류 모듈과 선택 모듈의 동시 최적화가 약한 감독 환경에서 성능 향상에 기여하는가?
  • RQ3약한 감독 기반 모델이 비트림 영상 벤치마크에서 강한 감독 기반 모델의 성능을 능가하거나 동등하게 유지할 수 있는가?
  • RQ4영상 수준 레이블만을 사용할 때 어텐션 메커니즘이 비트림 영상에서 액션 인스턴스를 얼마나 잘 국소화할 수 있는가?

주요 결과

  • THUMOS14 데이터셋에서 UntrimmedNet은 이전 방법보다 평균 정밀도(mAP)가 3.7% 높게 달성되었으며, 이는 약한 감독만을 사용한 상황임에도 불구하고 성과이다.
  • ActivityNet 데이터셋에서 UntrimmedNet은 이전 최신 기술 수준 방법 대비 약한 감독 조건에서 mAP가 2.5% 향상되었다.
  • UntrimmedNet의 소프트 선택 버전은 THUMOS14에서 IoU 임계값 0.1일 때 44.4%의 mAP를 기록했으며, 강한 감독 기반 방법과 유사한 성능을 보였다.
  • 어텐션 가중치의 시각화 결과, 모델이 액션과 관련된 프레임을 성공적으로 강조하고, 정적 또는 관련 없는 배경 프레임은 억제하는 것으로 나타났다.
  • 절단 분석 결과, 분류 모듈과 선택 모듈의 공동 학습이 성능 향상에 필수적임을 확인하였으며, 각각 별도로 최적화하는 기준선 모델보다 성능이 뛰어났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.