[논문 리뷰] Objects2action: Classifying and localizing actions without any video example
이 논문은 비디오 예제나 동작 레이블 없이도 동작을 분류하고 국소화할 수 있는 제로샷 동작 인식 프레임워크인 Objects2action을 제안한다. ImageNet의 객체 카테고리 기반으로 학습된 스위프트그램 기반 의미적 단어 임베딩을 활용하며, 동작-객체 유사도의 볼록 조합을 사용하여, 비디오 예제나 애너테이션 없이도 텍스트 및 객체 수준의 사전 지식만으로도 강력한 성능을 달성한다.
The goal of this paper is to recognize actions in video without the need for examples. Different from traditional zero-shot approaches we do not demand the design and specification of attribute classifiers and class-to-attribute mappings to allow for transfer from seen classes to unseen classes. Our key contribution is objects2action, a semantic word embedding that is spanned by a skip-gram model of thousands of object categories. Action labels are assigned to an object encoding of unseen video based on a convex combination of action and object affinities. Our semantic embedding has three main characteristics to accommodate for the specifics of actions. First, we propose a mechanism to exploit multiple-word descriptions of actions and objects. Second, we incorporate the automated selection of the most responsive objects per action. And finally, we demonstrate how to extend our zero-shot approach to the spatio-temporal localization of actions in video. Experiments on four action datasets demonstrate the potential of our approach.
연구 동기 및 목표
- 모든 레이블이 부여된 비디오 예제나 동작 애너테이션 없이도 비디오에서 제로샷 동작 인식을 가능하게 하기 위해.
- 수동으로 정의된 속성과 클래스-속성 매핑에 의존하는 전통적 제로샷 방법의 한계를 극복하기 위해.
- 풍부한 객체 수준 데이터(이미지, 레이블, 텍스트)를 활용하는 확장 가능한 의미 임베딩 프레임워크를 개발하기 위해.
- 학습 예제 없이도 제로샷으로 시공간적 동작 국소화를 확장하기 위해.
- 의미 임베딩을 활용하여 대규모 비디오 컬렉션에서 자유형 텍스트 쿼리로 동작 클래스를 검색할 수 있도록 하기 위해.
제안 방법
- 수천 개의 ImageNet 객체 카테고리에 대해 훈련된 스위프트그램 모델을 사용하여 의미적 단어 임베딩을 구축한다.
- 임베딩 공간에서 동작과 객체 유사도의 볼록 조합을 통해 미리보지 않은 비디오 클립에 동작 레이블을 할당한다.
- 동작과 객체의 다중 단어 기술을 통합하여 의미 표현의 정밀도를 향상시킨다.
- 학습된 유사도 모델링을 통해 각 동작에 가장 반응성이 높은 객체를 자동으로 식별한다.
- 분포적 의미를 모델링하고 표현 정밀도를 향상시키기 위해 단어 임베딩에 피셔 벡터 인코딩을 적용한다.
- 튜브릿 제안과 객체 반응 점수를 사용하여 어떤 예제 비디오 없이도 제로샷 시공간적 동작 국소화를 수행한다.
실험 결과
연구 질문
- RQ1어떤 학습 예제나 동작 애너테이션 없이도 비디오에서 동작 인식을 달성할 수 있는가?
- RQ2객체 카테고리와 텍스트 기술에 기반한 의미 임베딩이 동작 인식에서 속성 기반 제로샷 방법보다 우수한 성능을 낼 수 있는가?
- RQ3제안된 객체 기반 임베딩은 제로샷 시공간적 동작 국소화에 얼마나 효과적인가?
- RQ4비디오 예제나 애너테이션 없이도 자유형 텍스트 쿼리가 관련 동작 비디오를 검색할 수 있는가?
- RQ5객체 임베딩과 알려지지 않은 동작 클래스의 희소성 모델링이 인식 성능 향상에 기여하는가?
주요 결과
- 제안된 Objects2action 프레임워크는 어떤 비디오 예제도 사용하지 않고 네 가지 벤치마크 데이터셋에서 유망한 제로샷 동작 분류 성능를 달성한다.
- UCF Sports에서 제로샷 시공간적 동작 국소화를 효과적으로 수행하여, 훈련 예제 없이도 완전히 지도 학습 기반 보조 성능과 경쟁 가능한 AUC 점수를 확보한다.
- 국소화의 높은 오버랩 임계치에서 제로샷 접근 방식이 일부 경우에서 지도 학습 방법을 초월하여 성능을 냄으로써, 국소화 정밀도 요구 사항에 대한 강건성을 보여준다.
- THUMOS14에서의 자유형 텍스트 쿼리가 'ring에서 싸움'이나 '춤'과 같이 훈련 클래스 101개에 포함되지 않은 새로운 동작에 대해 관련 비디오를 성공적으로 검색한다.
- '음식 맡는 것'이나 '크리켓에서 와이킷을 때리는 것'과 같은 동작에 대해서도 관련 클립을 검색할 수 있었지만, 쿼리의 구체성과 알려진 클래스와의 의미적 유사도에 따라 성능은 다양하게 나타났다.
- 객체 임베딩과 알려지지 않은 동작 표현 양쪽 모두에서 희소성이 성능 향상에 기여함을 입증하여, 단순 평균화보다 더 구조적이고 비균일한 특징 표현 방식의 이점을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.