[論文レビュー] Zero-Shot Video Question Answering via Frozen Bidirectional Language Models
本論文は FrozenBiLM を提案する。事前学習済みの双方向言語モデルを凍結し、それを凍結した視覚エンコーダと軽量アダプターおよび視覚からテキストへの射影で接続するフレームワークを提案し、視覚情報に条件付けられたマスク付き言語モデル化を通じたゼロショット VideoQA を実現する。複数の VideoQA ベンチマークで強力なゼロショット性能を示し、少数ショットおよび全監督の結果でも競争力がある。
Video question answering (VideoQA) is a complex task that requires diverse multi-modal data for training. Manual annotation of question and answers for videos, however, is tedious and prohibits scalability. To tackle this problem, recent methods consider zero-shot settings with no manual annotation of visual question-answer. In particular, a promising approach adapts frozen autoregressive language models pretrained on Web-scale text-only data to multi-modal inputs. In contrast, we here build on frozen bidirectional language models (BiLM) and show that such an approach provides a stronger and cheaper alternative for zero-shot VideoQA. In particular, (i) we combine visual inputs with the frozen BiLM using light trainable modules, (ii) we train such modules using Web-scraped multi-modal data, and finally (iii) we perform zero-shot VideoQA inference through masked language modeling, where the masked text is the answer to a given question. Our proposed approach, FrozenBiLM, outperforms the state of the art in zero-shot VideoQA by a significant margin on a variety of datasets, including LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA and TVQA. It also demonstrates competitive performance in the few-shot and fully-supervised setting. Our code and models are publicly available at https://github.com/antoyang/FrozenBiLM.
研究の動機と目的
- 手作業の視覚QA注釈なしで、スケーラブルなゼロショット VideoQA を動機づける。
- 凍結された双方向言語モデル(BiLMs)を用いて多モーダル推論を活用する。
- アダプターと軽量な視覚→テキスト射影が、効果的な動画と言語の融合を実現できることを示す。
- 多様な VideoQA データセットに対して、ゼロショット・少数ショット・全監督の性能を示す。
提案手法
- ウェブテキストを用いた MLM で事前学習された凍結済みの DeBERTa-V2-XLarge Bidirectional Language Model を使用する。
- フリーズされた CLIP ViT-L/14 視覚エンコーダを用いてフレーム特徴を抽出する。
- 視覚特徴を言語モデルの埋め込み空間へ写像する軽量な視覚→テキスト射影 P を導入する。
- Transformer 層の周囲に軽量アダプター A を挿入し、BiLM の微調整なしに多モーダル相互作用を可能にする。
- WebVid10M(動画キャプションデータ)上で、視覚条件付きマスクド言語モデリング損失を用いて P と A を訓練する。
- 下流タスクを、凍結された MLM分類ヘッドと、タスク固有の回答ヘッドを組み合わせたクローズ風プロンプトとして形成し、マスクトークンを有限の回答語彙へ写像する。
実験結果
リサーチクエスチョン
- RQ1凍結された双方向言語モデルを、凍結された視覚バックボーンと軽量アダプターと組み合わせた場合、ゼロショット VideoQA に効果的に利用できるか?
- RQ2言語モデルの規模とマルチモーダルトレーニングデータ量は、ゼロショット VideoQA の性能にどう影響しますか?
- RQ3追加のモダリティとしてスピーチ転写を含めることの影響は何ですか?
- RQ4FrozenBiLM は、 autoregressive zero-shot VideoQA models と比較して、精度とトレーニング効率の点でどうですか?
主な発見
- FrozenBiLM は eight datasets に対して従来のゼロショット VideoQA 法より優れている。
- クロスモーダル訓練中に BiLM 重みを凍結することは、言語モデルを更新するよりも強い zero-shot 性能をもたらす。
- 視覚入力を追加すると結果が大幅に改善され、スピーチは複数のデータセットで追加の利得を提供する。
- より大きな bidirectional language models(例:DeBERTa-V2-XLarge)とより大きなマルチモーダルトレーニングデータは、zero-shot 精度を向上させる。
- 凍結された自己回帰モデルと比較して、bidirectional FrozenBiLM は同程度または小規模なスケールでもより良い精度と効率のトレードオフを提供する。
- 微調整した場合でも、BiLM 重みを凍結したまま、少数ショットおよび全監督設定で競争力を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。