[논문 리뷰] Zero-Shot Video Question Answering via Frozen Bidirectional Language Models
논문은 FrozenBiLM을 제안한다. 이는 사전 학습된 양방향 언어 모델을 고정하고 이를 고정된 시각적 인코더와 가벼운 어댑터 및 시각-텍스트 투영으로 연결하여, 시각적으로 조건화된 마스킹 언어 모델링을 통해 제로샷 VideoQA를 가능하게 하는 프레임워크이다. 여러 VideoQA 벤치마크에서 강력한 제로샷 성능을 보여주고, 소수샷 및 완전 감독 학습 결과에서도 경쟁력을 가진다.
Video question answering (VideoQA) is a complex task that requires diverse multi-modal data for training. Manual annotation of question and answers for videos, however, is tedious and prohibits scalability. To tackle this problem, recent methods consider zero-shot settings with no manual annotation of visual question-answer. In particular, a promising approach adapts frozen autoregressive language models pretrained on Web-scale text-only data to multi-modal inputs. In contrast, we here build on frozen bidirectional language models (BiLM) and show that such an approach provides a stronger and cheaper alternative for zero-shot VideoQA. In particular, (i) we combine visual inputs with the frozen BiLM using light trainable modules, (ii) we train such modules using Web-scraped multi-modal data, and finally (iii) we perform zero-shot VideoQA inference through masked language modeling, where the masked text is the answer to a given question. Our proposed approach, FrozenBiLM, outperforms the state of the art in zero-shot VideoQA by a significant margin on a variety of datasets, including LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA and TVQA. It also demonstrates competitive performance in the few-shot and fully-supervised setting. Our code and models are publicly available at https://github.com/antoyang/FrozenBiLM.
연구 동기 및 목표
- 수작업 시각 QA 주석 없이 확장 가능한 제로샷 VideoQA를 동기부여한다.
- 다중 모달 추론을 위한 냉각된(B frozen) 양방향 언어 모델(BiLMs)을 활용한다.
- 어댑터와 경량 시각-to-텍스트 투영이 효과적인 비디오-언어 융합을 가능하게 할 수 있음을 보여준다.
- 다양한 VideoQA 데이터셋에서 제로샷, 소수샷, 및 완전 감독 성능을 입증한다.
제안 방법
- 웹 텍스트에서 MLM으로 사전 학습된 frozen DeBERTa-V2-XLarge 양방향 언어 모델을 사용한다.
- 프레임 특징을 추출하기 위해 frozen CLIP ViT-L/14 시각 인코더를 활용한다.
- 시각 특징을 언어 모델의 임베딩 공간으로 매핑하는 경량 시각-to-텍스트 투영 P를 도입한다.
- Transformer 계층 주변에 경량 어댑터 A를 삽입하여 BiLM을 미세조정하지 않고 다중 모달 상호작용을 가능하게 한다.
- WebVid10M(비디오-자막 데이터)에서 시각적으로 조건화된 마스킹 언어 모델링 손실로 P와 A를 학습한다.
- 다운스트림 작업을 얼어붙은 MLM 분류 헤드와 작업별 정답 헤드가 있는 cloze 스타일 프롬프트로 형성하여 마스크 토큰을 고정된 정답 어휘로 맵핑한다.
실험 결과
연구 질문
- RQ1얼어붙은 양방향 언어 모델이 얼어붙은 시각 백본과 경량 어댑터와 함께 연결될 때 제로샷 VideoQA에 효과적으로 사용될 수 있는가?
- RQ2언어 모델의 크기와 다중 모달 학습 데이터의 양이 제로샷 VideoQA 성능에 어떤 영향을 주는가?
- RQ3음성 전사 데이터를 추가 모달로 포함하는 것이 미치는 영향은 무엇인가?
- RQ4동일한 규모에서 얻은 정확도-효율성 트레이드오프 측면에서 FrozenBiLM은 자기회귀형 제로샷 모델과 어떻게 비교되는가?
주요 결과
- FrozenBiLM은 여덟 개의 데이터셋에 걸쳐 기존의 제로샷 VideoQA 방법들을 능가한다.
- 교차 모달 학습 중 BiLM 가중치를 고정시키면 언어 모델을 업데이트하는 것보다 제로샷 성능이 더 강력하다.
- 시각 입력을 추가하면 성능이 크게 향상되며, 음성은 여러 데이터셋에서 추가 이점을 제공한다.
- 더 큰 양방향 언어 모델(예: DeBERTa-V2-XLarge)과 더 큰 다중 모달 학습 데이터가 제로샷 정확도를 높인다.
- 고정된 자기회귀 모델에 비해, 같은 규모 또는 더 작은 규모에서 양방향 FrozenBiLM이 더 나은 정확도-효율성 트레이드오프를 제공한다.
- 미세조정 시 BiLM 가중치를 고정한 상태로도 소수샷 및 완전 감독 설정에서도 이 접근법이 경쟁력을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.