QUICK REVIEW

[논문 리뷰] Towards Weakly-Supervised Action Localization

Philippe Weinzaepfel, Xavier Martín|arXiv (Cornell University)|2016. 05. 18.

Human Pose and Action Recognition참고 문헌 32인용 수 28

한 줄 요약

이 논문은 최신 검출기와 탐지 기반 추적을 통해 인간 튜브 추출을 이용한 약한 감독형 행동 로컬라이제이션 방법을 제안한다. UCF-Sports와 J-HMDB에서 평균 5개 이하의 튜브로 95%의 높은 리콜을 달성한다. 개선된 밀도 있는 궤적을 사용한 다중 폴드 다중 인스턴스 학습(MIL)을 활용하여 UCF-Sports에서 84% mAP, J-HMDB에서 54% mAP를 달성하며, 완전 감독형 성능에 가까운 성능을 보이며, 330만 프레임과 10개의 동작을 포함한 대규모 DALY 데이터셋을 도입한다.

ABSTRACT

This paper presents a novel approach for weakly-supervised action localization, i.e., that does not require per-frame spatial annotations for training. We first introduce an effective method for extracting human tubes by combining a state-of-the-art human detector with a tracking-by-detection approach. Our tube extraction leverages the large amount of annotated humans available today and outperforms the state of the art by an order of magnitude: with less than 5 tubes per video, we obtain a recall of 95% on the UCF-Sports and J-HMDB datasets. Given these human tubes, we perform weakly-supervised selection based on multi-fold Multiple Instance Learning (MIL) with improved dense trajectories and achieve excellent results. We obtain a mAP of 84% on UCF-Sports, 54% on J-HMDB and 45% on UCF-101, which outperforms the state of the art for weakly-supervised action localization and is close to the performance of the best fully-supervised approaches. The second contribution of this paper is a new realistic dataset for action localization, named DALY (Daily Action Localization in YouTube). It contains high quality temporal and spatial annotations for 10 actions in 31 hours of videos (3.3M frames), which is an order of magnitude larger than standard action localization datasets. On the DALY dataset, our tubes have a spatial recall of 82%, but the detection task is extremely challenging, we obtain 10.8% mAP.

연구 동기 및 목표

프레임 단위의 공간적 애너테이션 없이 약한 감독형 행동 로컬라이제이션 프레임워크를 개발하는 것.
기존의 인간 검출 애너테이션과 탐지 기반 추적을 이용해 인간 튜브 추출 정확도를 향상시키는 것.
프레임 단위의 애너테이션 없이도 완전 감독형 방법과 유사한 높은 행동 로컬라이제이션 성능을 달성하는 것.
유튜브 영상에서 31시간 분량의 영상과 10개의 동작 클래스를 포함한 대규모이고 현실적인 벤치마크 데이터셋인 DALY를 도입하는 것.

제안 방법

스테이트 오브 더 아트 인간 검출기와 탐지 기반 추적 파이프라인을 조합하여 시공간적 튜브 후보를 생성함으로써 인간 튜브를 추출한다.
기존의 대규모 인간 검출 애너테이션을 활용해 튜브 추출의 리콜을 크게 향상시켜, UCF-Sports와 J-HMDB에서 평균 5개 이하의 튜브로 95%의 리콜을 달성한다.
개선된 밀도 있는 궤적을 시각적 특징으로 사용한 다중 폴드 다중 인스턴스 학습(MIL)을 통해 약한 감독형 행동 로컬라이제이션을 수행한다.
MIL 프레임워크는 튜브와 영상 간의 특징을 집계하여 오직 영상 수준의 레이블만을 기반으로 행동을 로컬라이징한다.
기존 기준 벤치마크와 새로 도입된 DALY 데이터셋을 대상으로 방법을 평가하였으며, 이 데이터셋은 330만 프레임과 10개의 동작 클래스를 포함한다.

실험 결과

연구 질문

RQ1기존의 검출 애너테이션과 추적 기반 기법을 활용해 인간 튜브 추출을 크게 향상시킬 수 있는가? 이는 약한 감독형 행동 로컬라이제이션을 가능하게 하는가?
RQ2개선된 밀도 있는 궤적을 사용한 다중 폴드 MIL이 프레임 단위의 애너테이션 없이도 높은 로컬라이제이션 정확도를 달성할 수 있는가?
RQ3기존 표준 기준 벤치마크에서 제안된 방법은 최신 약한 감독형 접근법보다 어떻게 비교되는가?
RQ4UCF-Sports와 J-HMDB와 같은 대규모 현실 기반 유튜브 영상 기반 데이터셋인 DALY는 행동 로컬라이제이션에 의미 있는 벤치마크로 기능할 수 있는가?

주요 결과

제안된 튜브 추출 방법은 UCF-Sports와 J-HMDB에서 평균 5개 이하의 튜브로 95%의 리콜을 달성하며, 이는 이전 연구 대비 약 10배 이상 향상된 성능이다.
UCF-Sports에서 제안된 방법은 약한 감독형 행동 로컬라이제이션에서 84% mAP를 달성하여 기존 최고 성능을 초월하고 완전 감독형 성능에 가까워졌다.
J-HMDB에서 제안된 방법은 54% mAP를 기록하여 이 데이터셋에서 보고된 바 있는 약한 감독형 행동 로컬라이제이션 최고 성능이다.
UCF-101에서 제안된 방법은 45% mAP를 기록하여 복잡한 데이터셋임에도 불구하고 뛰어난 일반화 능력을 보였다.
새로 도입된 DALY 데이터셋에서 튜브 추출은 82%의 공간적 리콜을 달성했지만, 검출은 여전히 도전 과제이며, 결과적으로 10.8% mAP를 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.