QUICK REVIEW

[논문 리뷰] Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

Antoine Yang, Antoine Miech|arXiv (Cornell University)|2022. 06. 16.

Multimodal Machine Learning Applications인용 수 64

한 줄 요약

논문은 FrozenBiLM을 제안한다. 이는 사전 학습된 양방향 언어 모델을 고정하고 이를 고정된 시각적 인코더와 가벼운 어댑터 및 시각-텍스트 투영으로 연결하여, 시각적으로 조건화된 마스킹 언어 모델링을 통해 제로샷 VideoQA를 가능하게 하는 프레임워크이다. 여러 VideoQA 벤치마크에서 강력한 제로샷 성능을 보여주고, 소수샷 및 완전 감독 학습 결과에서도 경쟁력을 가진다.

ABSTRACT

Video question answering (VideoQA) is a complex task that requires diverse multi-modal data for training. Manual annotation of question and answers for videos, however, is tedious and prohibits scalability. To tackle this problem, recent methods consider zero-shot settings with no manual annotation of visual question-answer. In particular, a promising approach adapts frozen autoregressive language models pretrained on Web-scale text-only data to multi-modal inputs. In contrast, we here build on frozen bidirectional language models (BiLM) and show that such an approach provides a stronger and cheaper alternative for zero-shot VideoQA. In particular, (i) we combine visual inputs with the frozen BiLM using light trainable modules, (ii) we train such modules using Web-scraped multi-modal data, and finally (iii) we perform zero-shot VideoQA inference through masked language modeling, where the masked text is the answer to a given question. Our proposed approach, FrozenBiLM, outperforms the state of the art in zero-shot VideoQA by a significant margin on a variety of datasets, including LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA and TVQA. It also demonstrates competitive performance in the few-shot and fully-supervised setting. Our code and models are publicly available at https://github.com/antoyang/FrozenBiLM.

연구 동기 및 목표

수작업 시각 QA 주석 없이 확장 가능한 제로샷 VideoQA를 동기부여한다.
다중 모달 추론을 위한 냉각된(B frozen) 양방향 언어 모델(BiLMs)을 활용한다.
어댑터와 경량 시각-to-텍스트 투영이 효과적인 비디오-언어 융합을 가능하게 할 수 있음을 보여준다.
다양한 VideoQA 데이터셋에서 제로샷, 소수샷, 및 완전 감독 성능을 입증한다.

제안 방법

웹 텍스트에서 MLM으로 사전 학습된 frozen DeBERTa-V2-XLarge 양방향 언어 모델을 사용한다.
프레임 특징을 추출하기 위해 frozen CLIP ViT-L/14 시각 인코더를 활용한다.
시각 특징을 언어 모델의 임베딩 공간으로 매핑하는 경량 시각-to-텍스트 투영 P를 도입한다.
Transformer 계층 주변에 경량 어댑터 A를 삽입하여 BiLM을 미세조정하지 않고 다중 모달 상호작용을 가능하게 한다.
WebVid10M(비디오-자막 데이터)에서 시각적으로 조건화된 마스킹 언어 모델링 손실로 P와 A를 학습한다.
다운스트림 작업을 얼어붙은 MLM 분류 헤드와 작업별 정답 헤드가 있는 cloze 스타일 프롬프트로 형성하여 마스크 토큰을 고정된 정답 어휘로 맵핑한다.

실험 결과

연구 질문

RQ1얼어붙은 양방향 언어 모델이 얼어붙은 시각 백본과 경량 어댑터와 함께 연결될 때 제로샷 VideoQA에 효과적으로 사용될 수 있는가?
RQ2언어 모델의 크기와 다중 모달 학습 데이터의 양이 제로샷 VideoQA 성능에 어떤 영향을 주는가?
RQ3음성 전사 데이터를 추가 모달로 포함하는 것이 미치는 영향은 무엇인가?
RQ4동일한 규모에서 얻은 정확도-효율성 트레이드오프 측면에서 FrozenBiLM은 자기회귀형 제로샷 모델과 어떻게 비교되는가?

주요 결과

FrozenBiLM은 여덟 개의 데이터셋에 걸쳐 기존의 제로샷 VideoQA 방법들을 능가한다.
교차 모달 학습 중 BiLM 가중치를 고정시키면 언어 모델을 업데이트하는 것보다 제로샷 성능이 더 강력하다.
시각 입력을 추가하면 성능이 크게 향상되며, 음성은 여러 데이터셋에서 추가 이점을 제공한다.
더 큰 양방향 언어 모델(예: DeBERTa-V2-XLarge)과 더 큰 다중 모달 학습 데이터가 제로샷 정확도를 높인다.
고정된 자기회귀 모델에 비해, 같은 규모 또는 더 작은 규모에서 양방향 FrozenBiLM이 더 나은 정확도-효율성 트레이드오프를 제공한다.
미세조정 시 BiLM 가중치를 고정한 상태로도 소수샷 및 완전 감독 설정에서도 이 접근법이 경쟁력을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.