[논문 리뷰] TALL: Temporal Activity Localization via Language Query
본 논문은 CTRL을 제시한다. 이는 자연어 질의로 미편집 비디오의 활동을 위치시키는 교차모달 시간 회귀 로커로, 텍스트와 비디오를 정렬 및 경계 회귀로 공동 모델링하여 TACoS 및 Charades-STA에서 기존 방법을 능가한다.
This paper focuses on temporal localization of actions in untrimmed videos. Existing methods typically train classifiers for a pre-defined list of actions and apply them in a sliding window fashion. However, activities in the wild consist of a wide combination of actors, actions and objects; it is difficult to design a proper activity list that meets users' needs. We propose to localize activities by natural language queries. Temporal Activity Localization via Language (TALL) is challenging as it requires: (1) suitable design of text and video representations to allow cross-modal matching of actions and language queries; (2) ability to locate actions accurately given features from sliding windows of limited granularity. We propose a novel Cross-modal Temporal Regression Localizer (CTRL) to jointly model text query and video clips, output alignment scores and action boundary regression results for candidate clips. For evaluation, we adopt TaCoS dataset, and build a new dataset for this task on top of Charades by adding sentence temporal annotations, called Charades-STA. We also build complex sentence queries in Charades-STA for test. Experimental results show that CTRL outperforms previous methods significantly on both datasets.
연구 동기 및 목표
- 자연어 질의를 통해 시간적 활동 로컬라이제이션의 동기를 제시하여 개방형 활동 설명을 처리한다.
- 언어 질의를 비디오 클립과 정렬하고 시간 경계를 다듬기 위한 교차모달 모델 설계.
- 정확한 로컬라이제이션을 위한 제안된 클립 경계를 조정하는 회귀 기반 접근법 개발.
- TALL를 위한 문장 수준의 시간 주석을 지원하기 위해 데이터셋(Charades-STA) 생성 및 확장.
- 강건한 로컬라이제이션 지표를 사용하여 TACoS와 Charades-STA에서 CTRL을 기준선과 비교 평가.
제안 방법
- 후보 클립에 대해 정렬 점수와 시간 오프셋을 출력하는 Cross-modal Temporal Regression Localizer(CTRL)를 제안한다.
- 중심 표현, 사전 컨텍스트, 및 사후 컨텍스트 표현을 갖는 클립 특징을 추출하는 시각 인코더를 사용한다.
- 공유 차원의 언어 임베딩을 생성하기 위해 문장 인코더(LSTM 또는 Skip-thought)를 사용한다.
- 시각 및 텍스트 특징을 더하기, 곱하기, 연결로 결합한 다음 회귀를 위한 f_sv를 형성하기 위해 FC 층을 따른다.
- L = L_aln + α L_reg인 다중 작업 손실로 학습하며, L_aln은 올바른 정렬을 촉진하고 L_reg는 시간 경계를 다듬는다(매개변수화된 옵션과 비매개변수화된 옵션).
- 추론 시 경계를 다듬기 위해 학습 샘플과 그라운드 트 truth 회귀 타깃에 다중 스케일 시간 슬라이딩 윈도우를 적용한다.
실험 결과
연구 질문
- RQ1자연어 질의를 사용하여 미편집 비디오에서 동작을 시간상으로 로컬라이즈할 수 있는가?
- RQ2TALL을 위한 텍스트-비디오 정렬과 경계 회귀를 가능하게 하는 교차모달 표현을 어떻게 설계할 수 있는가?
- RQ3시간 경계 회귀가 단순 정렬보다 로컬라이제이션 정확도를 향상시키는가?
- RQ4비매개변수화된 시간 오프셋 회귀가 매개변수화된 오프셋 회귀보다 경계에 더 효과적인가?
- RQ5CTRL 변형들이 TACoS와 Charades-STA에서 전통적 동작 분류기 및 비주얼-시맨틱 기초선과 비교하여 어떤 성능을 보이는가?
주요 결과
- CTRL은 회귀가 포함된 변형을 포함하여 TACoS와 Charades-STA에서 기준선 대비 로컬라이제이션 성능을 크게 향상시킨다.
- 비매개변수화된 시간 오프셋이 경계 회귀에서 매개변수화된 것보다 우수하여 더 높은 IoU와 재현율을 얻는다.
- 데이터 규모로 인해 TACoS 데이터셋에서 Skip-thought 문장 임베딩이 일반적으로 word2vec+LSTM보다 높은 성능을 보인다.
- Verb+Obj 및 regression(reg-np)을 갖춘 CTRL 변형이 최고 성능을 달성하여 질의의 객체 및 경계 개선의 이점을 보여준다.
- CTRL (reg-np)는 보고된 방법 중 IoU=0.5 및 IoU=0.3에서 Recall@1이 TACoS 및 Charades-STA에서 가장 높다.
- CTRL은 교차모달 정렬 및 시간 로컬라이제이션을 엔드-투-엔드로 학습하여 VSA-RNN/STV 기준선 및 사전 정의된 동작/객체 분류기보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.