QUICK REVIEW

[논문 리뷰] Weakly Supervised Action Labeling in Videos Under Ordering Constraints

Piotr Bojanowski, Rémi Lajugie|arXiv (Cornell University)|2014. 07. 04.

Human Pose and Action Recognition참고 문헌 1인용 수 44

한 줄 요약

이 논문은 스크립트 형 태깅에서 제공하는 행동 순서 제약 조건만을 사용하여 비디오에서 시간적 행동 로컬라이제이션을 위한 약한 지도 학습 방법을 제안한다. 행동 분류기와 시간 순서 제약 조건 하에 비디오 세그먼트에 레이블을 할당하는 것을 동시에 학습함으로써, 대규모 할리우드 비디오 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 전체 데이터의 25%만 완전히 레이블링된 경우에도 완전 지도 학습 기반 모델을 능가한다.

ABSTRACT

We are given a set of video clips, each one annotated with an {\em ordered} list of actions, such as "walk" then "sit" then "answer phone" extracted from, for example, the associated text script. We seek to temporally localize the individual actions in each clip as well as to learn a discriminative classifier for each action. We formulate the problem as a weakly supervised temporal assignment with ordering constraints. Each video clip is divided into small time intervals and each time interval of each video clip is assigned one action label, while respecting the order in which the action labels appear in the given annotations. We show that the action label assignment can be determined together with learning a classifier for each action in a discriminative manner. We evaluate the proposed model on a new and challenging dataset of 937 video clips with a total of 787720 frames containing sequences of 16 different actions from 69 Hollywood movies.

연구 동기 및 목표

영화 스크립트에서 제공하는 행동 순서 정보만을 활용하여 인간 레이블링을 최소화한 비디오의 시간적 행동 로컬라이제이션 문제를 해결한다.
시간 스탬프가 필요한 고비용의 태깅이 필요한 완전 지도 학습 방법의 한계를 극복하기 위해 약한 지도 신호를 활용한다.
행동 레이블링 문제를 순서 제약 조건 하에 행동 분류기와 시간 할당을 동시에 최적화하는 문제로 공식화한다.
완전 지도 학습이 제한된 상황에서도 시간 순서 제약 조건이 모델 성능을 크게 향상시킨다는 것을 입증한다.
937개의 할리우드 비디오 클립, 16개의 행동, 787,720프레임으로 구성된 대규모이고 현실적인 데이터셋에서 평가하여, 약한 지도 학습 조건 하에서도 강력한 일반화 성능을 보였다.

제안 방법

각 비디오 클립을 짧은 시간 세그먼트(프레임)의 시퀀스로 모델링하고, 스크립트에 기록된 행동 순서를 존중하면서 각 세그먼트에 하나의 행동 레이블을 할당한다.
행동 분류기와 시간 순서 제약 조건 하에 레이블을 할당하는 것을 동시에 최적화하는 결정적 최적화 문제로 학습 문제를 공식화한다.
정확한 행동 순서를 강제하고 분류기의 구분 능력을 향상시키기 위한 비용 함수를 최소화하기 위해 Frank-Wolfe 알고리즘 기반의 볼록 최적화 프레임워크를 사용한다.
약한 지도 학습(행동 순서)과 선택적 부분적 완전 지도 학습(시간 스탬프 태깅)을 반경우 학습 설정에서 통합한다.
최적 할당 행렬에서 유도된 닫힌 형태의 표현식을 사용해 암묵적인 행동 분류기를 추정한다.
비교를 위해 순서 제약 조건을 고려하지 않은 완전히 레이블링된 데이터만 사용하는 제곱 손실 기반 기준 모델을 적용한다.

실험 결과

연구 질문

RQ1약한 태깅된 스크립트에서 유도된 시간 순서 제약 조건이 시간 스탬프 태깅이 없는 비디오의 행동 로컬라이제이션 및 분류 성능을 향상시킬 수 있는가?
RQ2완전히 레이블링된 데이터의 일부만 사용할 경우, 행동 순서를 활용한 약한 지도 학습 방법의 성능이 완전 지도 학습 기반 모델보다 뛰어나게 되는가?
RQ3약한 지도 학습과 결합했을 때 순서 제약 조건이 분류기 학습에 얼마나 기여하는가?
RQ4행동 분류기와 시간 레이블 할당을 동시에 최적화하는 방법이 분류와 로컬라이제이션을 별도로 다루는 방법보다 우수한가?
RQ5제안된 방법이 다양한 행동 순서를 포함한 할리우드 영화에서의 복잡하고 실제적인 비디오 데이터에 잘 일반화되는가?

주요 결과

전체 데이터의 25%만 완전히 레이블링된 경우, 제안된 방법이 완전 지도 학습 기반 모델(제곱 손실 기반)을 능가하며, 순서 제약 조건을 활용한 약한 지도 학습의 가치를 입증한다.
일반적인 행동인 "Open Door", "Sit Down", "Stand Up"과 같은 행동들에 대해 평균적으로 기준 모델보다 더 높은 일치 정확도를 달성한다.
반경우 학습 설정에서, 제한된 완전 태깅 데이터가 존재하더라도 모델이 항상 완전 지도 학습 기반 모델(SL)을 능가하며, 순서 제약 조건이 학습 효율성을 향상시킨다는 것을 보여준다.
순서 제약 조건이 없는 Bojanowski et al. 기준 모델에 비해 제안된 방법이 크게 향상되었으며, 약한 지도 학습 조건에서 성능이 열등한 편이었다.
회복된 분류기는 완전 지도 학습 기반 모델과 Bojanowski et al. 기준 모델보다 평균 정밀도가 높았으며, 특히 약한 지도 학습 환경에서 두드러진 성능 향상을 보였다.
Frank-Wolfe 알고리즘의 사용으로 투영 단계 없이 효율적인 최적화가 가능하여 대규모 비디오 데이터셋에 대한 확장성도 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.