QUICK REVIEW

[논문 리뷰] ActionCLIP: A New Paradigm for Video Action Recognition

Mengmeng Wang, Jiazheng Xing|arXiv (Cornell University)|2021. 09. 17.

Human Pose and Action Recognition참고 문헌 53인용 수 189

한 줄 요약

ActionCLIP은 영상 액션 인식을 영상–텍스트 매칭으로 재구성하고, 사전 학습, 프롬프트, 미세 조정 패러다임을 도입하며, Kinetics-400에서 제로샷/소수샷 전이에서 강력한 성능과 함께 최첨단 결과를 달성합니다.

ABSTRACT

The canonical approach to video action recognition dictates a neural model to do a classic and standard 1-of-N majority vote task. They are trained to predict a fixed set of predefined categories, limiting their transferable ability on new datasets with unseen concepts. In this paper, we provide a new perspective on action recognition by attaching importance to the semantic information of label texts rather than simply mapping them into numbers. Specifically, we model this task as a video-text matching problem within a multimodal learning framework, which strengthens the video representation with more semantic language supervision and enables our model to do zero-shot action recognition without any further labeled data or parameters requirements. Moreover, to handle the deficiency of label texts and make use of tremendous web data, we propose a new paradigm based on this multimodal learning framework for action recognition, which we dub "pre-train, prompt and fine-tune". This paradigm first learns powerful representations from pre-training on a large amount of web image-text or video-text data. Then it makes the action recognition task to act more like pre-training problems via prompt engineering. Finally, it end-to-end fine-tunes on target datasets to obtain strong performance. We give an instantiation of the new paradigm, ActionCLIP, which not only has superior and flexible zero-shot/few-shot transfer ability but also reaches a top performance on general action recognition task, achieving 83.8% top-1 accuracy on Kinetics-400 with a ViT-B/16 as the backbone. Code is available at https://github.com/sallymmx/ActionCLIP.git

연구 동기 및 목표

액션 인식을 라벨 텍스트의 의미 정보를 활용할 수 있는 영상–텍스트 매칭 문제로 재정의한다.
대규모 웹 데이터 프리트레이닝 모델을 재사용하기 위한 확장 가능한 패러다임—사전 학습, 프롬프트, 미세 조정—을 도입한다.
표준 벤치마크에서 제로샷 및 소수샷 전이 능력을 시연한다.
텍스트 프롬프트와 신중하게 설계된 시각 프롬프트가 성능을 향상시키는 한편 재앙적인 망각을 피하는 데 도움이 됨을 보여준다

제안 방법

action recognition을 P(f(x,y)|θ)로 형식화하여 영상 인코더 gV와 언어 인코더 gW를 통해 영상–텍스트 쌍 간의 교차 모달 유사도 s(x,y)를 최대화한다.
코사인 유사도와 대칭적 p_x2y, p_y2x를 온도 τ와 함께 사용하여 영상–텍스트 쌍 전반에 걸친 대조 KL 손실을 정의한다.
관련 영상 및 라벨 표현을 함께 끌어당기기 위해 멀티모달 학습 목표(비디오–텍스트 대조 손실)를 채택한다.
새로운 패러다임을 제안: 웹 데이터에서의 사전 학습, 텍스트 프롬프트와 시각 프롬프트를 적용하여 다운스트림 작업을 프리트레이닝 목표와 정렬시키고, 대상 데이터셋에서 엔드-투-엔드로 미세 조정한다.
ActionCLIP를 CLIP를 기본 모델로 사용하도록 인스턴스화하고, 라벨 문장을 위한 텍스트 프롬프트와 다양한 시각 프롬프트(프리-네트워크, 인-네트워크, 포스트-네트워크)를 사용하여 시간 정보를 모델링한다.
제로샷 및 소수샷 조건에서 평가하고, 단일 모달 기반 베이스라인 및 기존 방법과 비교한다.

실험 결과

연구 질문

RQ1라벨 텍스트의 의미 정보가 전통적인 단일 모달 분류에 비해 액션 인식을 개선할 수 있는가?
RQ2사전 학습-프롬프트-미세 조정 패러다임이 표준 벤치마크에서 효과적인 제로샷 및 소수샷 액션 인식을 가능하게 하는가?
RQ3텍스트 프롬프트와 다양한 시각 프롬프트가 사전 학습된 모델을 영상 액션에 적용할 때 성능과 지식 보존(카타스트로피 잊음)에 어떤 영향을 미치는가?

주요 결과

Backbone	Frames	Top-1	Top-5	GFLOPs	Params	Runtime
TimeSformer-L	96	80.7	-	7140	-	-
ViViT-L/16x2	320	32	81.3	3992	-	4.2V/s
ViT-B/32	8	78.4	35.4	144.1M	144.7V/s	-
ViT-B/32	8	81.1	140.8	141.7M	43.2V/s	-
ViT-B/16	8	82.3	563.1	141.7M	13.0V/s	-
ViT-B/16	16	81.7	281.6	141.7M	21.2V/s	-
ViT-B/16	32	82.3	563.1	141.7M	13.0V/s	-

멀티모달 프레임워크가 단일 모달 베이스라인 대비 Top-1 정확도를 2.91 포인트 개선(제시된 인스턴에 대해 Kinetics-400에서 75.45%에서 78.36%).
ActionCLIP은 ViT-B/16을 사용하여 16 프레임에서 Kinetics-400에서 82.6% Top-1 및 96.2% Top-5를 달성; 32 프레임에서 ViT-B/16로 83.8% Top-1에 도달(Framesspecified).
제로샷/소수샷 결과는 데이터가 적은 설정에서 ActionCLIP가 선두를 달리고 Kinetics-400, HMDB-51, UCF-101에서 제로샷 인식을 가능하게 하며 일부 베이스라인이 어려움을 보이는 경우가 있음.
텍스트 라벨 프롬프팅이 라벨 단어만 사용하는 것보다 성능을 향상시킴(77.82% -> 78.36% Top-1).
시각 프롬프트의 영향으로 성능이 달라지며, 포스트-네트워크 프롬프트(MeanP, LSTM, Conv1D, Transf)가 강력한 결과를 보이는 반면, 프리-네트워크 Joint와 인-네트워크 Shift는 성능을 감소시킬 수 있어 프롬프트 설계가 카타스트로픽 잊음을 방지하는 데 중요함.
모든 구성 요소를 미세 조정하는 것이 최상의 결과를 낳고, 인코더를 고정하면 성능이 감소함(예: ablations의 V1–V4 비교).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.