QUICK REVIEW

[논문 리뷰] 3C-Net: Category Count and Center Loss for Weakly-Supervised Action Localization

Sanath Narayan, Hisham Cholakkal|arXiv (Cornell University)|2019. 08. 22.

Human Pose and Action Recognition참고 문헌 33인용 수 25

한 줄 요약

이 논문은 영상 수준 레이블과 동작 횟수를 활용하여 정확도를 향상시키는 약한 감독형 시계열 행동 탐지 프레임워크인 3C-Net을 제안한다. 분류, 다중 레이블 중심 손실, 그리고 세는 손실을 동시에 최적화함으로써, 이전 작업 대비 THUMOS14에서 4.6%의 절대 mAP 향상을 달성한다.

ABSTRACT

Temporal action localization is a challenging computer vision problem with numerous real-world applications. Most existing methods require laborious frame-level supervision to train action localization models. In this work, we propose a framework, called 3C-Net, which only requires video-level supervision (weak supervision) in the form of action category labels and the corresponding count. We introduce a novel formulation to learn discriminative action features with enhanced localization capabilities. Our joint formulation has three terms: a classification term to ensure the separability of learned action features, an adapted multi-label center loss term to enhance the action feature discriminability and a counting loss term to delineate adjacent action sequences, leading to improved localization. Comprehensive experiments are performed on two challenging benchmarks: THUMOS14 and ActivityNet 1.2. Our approach sets a new state-of-the-art for weakly-supervised temporal action localization on both datasets. On the THUMOS14 dataset, the proposed method achieves an absolute gain of 4.6% in terms of mean average precision (mAP), compared to the state-of-the-art. Source code is available at https://github.com/naraysa/3c-net.

연구 동기 및 목표

영상 수준 레이블과 동작 횟수만을 사용하는 약한 감독형 시계열 행동 탐지의 과제를 해결하기 위해.
전역 및 국소 수준에서의 특징 구별성을 향상시켜 정확도를 높이기 위해.
쌍체의 영상 미니배치나 단일 레이블 중심 손실에 의존하는 기존 방법의 한계를 극복하기 위해.
다중 레이블 중심 손실을 위한 클래스별 주의 기반 특징 집합을 도입함으로써 다양한 미니배치에서 효과적인 학습을 가능하게 하기 위해.
동작 횟수 정보를 활용하여 시간 차원에서 인접한 동작 인스턴스를 더 잘 분리하기 위해.

제안 방법

약한 감독형 행동 탐지에 적합한 분류 손실, 다중 레이블 중심 손실, 세는 손실을 조합한 공동 최적화 프레임워크를 도입한다.
클래스별 주의 기반 특징 집합을 적용하여 다중 레이블 영상 입력에 적합한 중심 손실을 적응시켜 내부 클래스 변동성을 감소시킨다.
예측된 동작 횟수와 진짜 동작 횟수 간의 차이를 최소화하는 세는 손실 항목을 사용하여 올바른 동작 인스턴스 분할을 장려한다.
RGB와 플로우 특징의 후기 융합을 사용하는 이중 스트림 I3D 백본을 활용하며, T-CAM을 사용해 클래스별 활성화 맵핑을 수행한다.
시간적 일관성을 유지하고 정밀도를 향상시키기 위해 세는 손실을 최종 T-CAM 예측에만 적용한다.
다양한 동작 빈도를 가진 영상에서 더 잘 처리하기 위해 세는 손실에 상대 오차를 사용한다.

실험 결과

연구 질문

RQ1분류, 중심, 세는 손실을 조합한 공동 손실 형식이 약한 감독형 행동 탐지 성능을 향상시킬 수 있는가?
RQ2행동 탐지에서 다중 레이블 영상 입력에 대해 중심 손실을 효과적으로 어떻게 적응시킬 수 있는가?
RQ3영상 수준의 동작 횟수 정보가 인접한 동작 인스턴스의 분리에 기여하는가?
RQ4쌍체 영상 미니배치가 필요 없이 다양한 영상 분포에 일반화되는가?
RQ5각 손실 구성 요소가 전체 탐지 성능에 기여하는 정도는 어떠한가?

주요 결과

제안된 3C-Net은 이전 최고 성능 방법 [16] 대비 THUMOS14에서 4.6%의 절대 mAP 향상을 달성한다.
THUMOS14에서 기준 모델(분류 손실만 사용)의 mAP 19.1%에서 3C-Net의 26.6%로 7.5% 절대 향상된다.
제거 실험 결과, 세는 손실을 제거하면 mAP가 1.5% 감소함으로써 그 기여도가 뚜렷하게 확인된다.
절대 오차 대비 상대 오차를 사용할 경우 1.2% mAP 향상으로 더 우수한 성능을 기록한다.
중심 손실 항목은 상당한 기여를 하며, RGB 또는 플로우 스트림에서 제거할 경우 mAP가 각각 1.9%에서 2.5% 감소한다.
정성적 결과는 다수의 동작 인스턴스, 시각적으로 유사한 동작, 장시간 지속되는 활동에 대해 강력한 탐지 성능을 보이며, 재생된 동작이 포함된 어려운 케이스에도 잘 대응함을 시각적으로 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.