QUICK REVIEW

[논문 리뷰] Objects2action: Classifying and localizing actions without any video example

Mihir Jain, Jan van Gemert|arXiv (Cornell University)|2015. 10. 23.

Human Pose and Action Recognition참고 문헌 38인용 수 35

한 줄 요약

이 논문은 비디오 예제나 동작 레이블 없이도 동작을 분류하고 국소화할 수 있는 제로샷 동작 인식 프레임워크인 Objects2action을 제안한다. ImageNet의 객체 카테고리 기반으로 학습된 스위프트그램 기반 의미적 단어 임베딩을 활용하며, 동작-객체 유사도의 볼록 조합을 사용하여, 비디오 예제나 애너테이션 없이도 텍스트 및 객체 수준의 사전 지식만으로도 강력한 성능을 달성한다.

ABSTRACT

The goal of this paper is to recognize actions in video without the need for examples. Different from traditional zero-shot approaches we do not demand the design and specification of attribute classifiers and class-to-attribute mappings to allow for transfer from seen classes to unseen classes. Our key contribution is objects2action, a semantic word embedding that is spanned by a skip-gram model of thousands of object categories. Action labels are assigned to an object encoding of unseen video based on a convex combination of action and object affinities. Our semantic embedding has three main characteristics to accommodate for the specifics of actions. First, we propose a mechanism to exploit multiple-word descriptions of actions and objects. Second, we incorporate the automated selection of the most responsive objects per action. And finally, we demonstrate how to extend our zero-shot approach to the spatio-temporal localization of actions in video. Experiments on four action datasets demonstrate the potential of our approach.

연구 동기 및 목표

모든 레이블이 부여된 비디오 예제나 동작 애너테이션 없이도 비디오에서 제로샷 동작 인식을 가능하게 하기 위해.
수동으로 정의된 속성과 클래스-속성 매핑에 의존하는 전통적 제로샷 방법의 한계를 극복하기 위해.
풍부한 객체 수준 데이터(이미지, 레이블, 텍스트)를 활용하는 확장 가능한 의미 임베딩 프레임워크를 개발하기 위해.
학습 예제 없이도 제로샷으로 시공간적 동작 국소화를 확장하기 위해.
의미 임베딩을 활용하여 대규모 비디오 컬렉션에서 자유형 텍스트 쿼리로 동작 클래스를 검색할 수 있도록 하기 위해.

제안 방법

수천 개의 ImageNet 객체 카테고리에 대해 훈련된 스위프트그램 모델을 사용하여 의미적 단어 임베딩을 구축한다.
임베딩 공간에서 동작과 객체 유사도의 볼록 조합을 통해 미리보지 않은 비디오 클립에 동작 레이블을 할당한다.
동작과 객체의 다중 단어 기술을 통합하여 의미 표현의 정밀도를 향상시킨다.
학습된 유사도 모델링을 통해 각 동작에 가장 반응성이 높은 객체를 자동으로 식별한다.
분포적 의미를 모델링하고 표현 정밀도를 향상시키기 위해 단어 임베딩에 피셔 벡터 인코딩을 적용한다.
튜브릿 제안과 객체 반응 점수를 사용하여 어떤 예제 비디오 없이도 제로샷 시공간적 동작 국소화를 수행한다.

실험 결과

연구 질문

RQ1어떤 학습 예제나 동작 애너테이션 없이도 비디오에서 동작 인식을 달성할 수 있는가?
RQ2객체 카테고리와 텍스트 기술에 기반한 의미 임베딩이 동작 인식에서 속성 기반 제로샷 방법보다 우수한 성능을 낼 수 있는가?
RQ3제안된 객체 기반 임베딩은 제로샷 시공간적 동작 국소화에 얼마나 효과적인가?
RQ4비디오 예제나 애너테이션 없이도 자유형 텍스트 쿼리가 관련 동작 비디오를 검색할 수 있는가?
RQ5객체 임베딩과 알려지지 않은 동작 클래스의 희소성 모델링이 인식 성능 향상에 기여하는가?

주요 결과

제안된 Objects2action 프레임워크는 어떤 비디오 예제도 사용하지 않고 네 가지 벤치마크 데이터셋에서 유망한 제로샷 동작 분류 성능를 달성한다.
UCF Sports에서 제로샷 시공간적 동작 국소화를 효과적으로 수행하여, 훈련 예제 없이도 완전히 지도 학습 기반 보조 성능과 경쟁 가능한 AUC 점수를 확보한다.
국소화의 높은 오버랩 임계치에서 제로샷 접근 방식이 일부 경우에서 지도 학습 방법을 초월하여 성능을 냄으로써, 국소화 정밀도 요구 사항에 대한 강건성을 보여준다.
THUMOS14에서의 자유형 텍스트 쿼리가 'ring에서 싸움'이나 '춤'과 같이 훈련 클래스 101개에 포함되지 않은 새로운 동작에 대해 관련 비디오를 성공적으로 검색한다.
'음식 맡는 것'이나 '크리켓에서 와이킷을 때리는 것'과 같은 동작에 대해서도 관련 클립을 검색할 수 있었지만, 쿼리의 구체성과 알려진 클래스와의 의미적 유사도에 따라 성능은 다양하게 나타났다.
객체 임베딩과 알려지지 않은 동작 표현 양쪽 모두에서 희소성이 성능 향상에 기여함을 입증하여, 단순 평균화보다 더 구조적이고 비균일한 특징 표현 방식의 이점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.