Skip to main content
QUICK REVIEW

[論文レビュー] Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners

Zhenhailong Wang, Manling Li|arXiv (Cornell University)|May 22, 2022
Multimodal Machine Learning Applications被引用数 52
ひとこと要約

VidILは画像と言語のモデルを活用して動画内容をフレームのキャプションと視覚トークンへ変換し、時系列を意識した文脈を持つ凍結済み言語モデルをプロンプトして、動画の事前学習なしで少数ショットの動画→テキストタスクを実行する。

ABSTRACT

The goal of this work is to build flexible video-language models that can generalize to various video-to-text tasks from few examples, such as domain-specific captioning, question answering, and future event prediction. Existing few-shot video-language learners focus exclusively on the encoder, resulting in the absence of a video-to-text decoder to handle generative tasks. Video captioners have been pretrained on large-scale video-language datasets, but they rely heavily on finetuning and lack the ability to generate text for unseen tasks in a few-shot setting. We propose VidIL, a few-shot Video-language Learner via Image and Language models, which demonstrates strong performance on few-shot video-to-text tasks without the necessity of pretraining or finetuning on any video datasets. We use the image-language models to translate the video content into frame captions, object, attribute, and event phrases, and compose them into a temporal structure template. We then instruct a language model, with a prompt containing a few in-context examples, to generate a target output from the composed content. The flexibility of prompting allows the model to capture any form of text input, such as automatic speech recognition (ASR) transcripts. Our experiments demonstrate the power of language models in understanding videos on a wide variety of video-language tasks, including video captioning, video question answering, video caption retrieval, and video future event prediction. Especially, on video future event prediction, our few-shot model significantly outperforms state-of-the-art supervised models trained on large-scale video datasets. Code and resources are publicly available for research purposes at https://github.com/MikeWangWZHL/VidIL .

研究の動機と目的

  • 動画データのファインチューニングなしで、柔軟な少数ショットの動画→テキスト学習を動機付ける。
  • 画像と言語モデルを介して動画内容をフレームキャプションや視覚トークンといったテキスト表現に変換する。
  • イン-contextプロンプティングを用いて、凍結済み言語モデルが多様なタスクの目標出力を生成できるようにする。
  • キャプション、QA、リトリーブ、イベント予測の広範な適用性を示す。

提案手法

  • 動画を3つのテキストレベルに分解する:視覚トークン(物体、イベント、属性)、フレームキャプション、そして動画レベルの表現。
  • サンプリングされた各フレームに対して、候補語彙とのコサイン類似度を用いてトップ視覚トークンをCLIPで取得する。
  • Visual Genomeを用いて意味役割ラベリングでイベント語彙を構築し、SentenceBERTの類似度で絞り込む。
  • BLIPを用いてフレームレベルの意味を捉え、ノイズを除去するフレームキャプションを生成する。
  • 凍結済み言語モデル(例:InstructGPT)向けに、時系列対応の少数ショットプロンプト(指示+コンテキスト内の例+タスククエリ)を組み立て、目標出力を生成させる。
  • プロンプトに時系列マーカー(First/Then/Finally)を挿入して、時間とともに現れる物体・イベントの変化をモデルに導く。

実験結果

リサーチクエスチョン

  • RQ1画像-言語由来の表現と時系列プロンプティングに guided された凍結済み言語モデルは、動画の事前学習なしで少数ショットの設定で多様な動画→テキストタスクを実行できるか?
  • RQ2フレームレベルのキャプションと視覚トークンは、キャプション作成、QA、リトリーブ、イベント予測の性能にどう寄与するか?
  • RQ3時系列順序とASR/転写が少数ショットの動画-言語タスクに与える影響は何か?

主な発見

  • VidILは動画キャプション、QA、リトリーブ、未来イベント予測において、動画の事前学習やファインチューニングなしで強力な少数ショット性能を達成する。
  • SentenceBERTと最近性に基づくコンテキスト内の例選択は、少数ショットの頑健性と効率を向上させる。
  • 時系列を意識したプロンプトは、時系列ダイナミクスを捉えるモデルの能力を向上させ、シーケンス理解を要するタスクで静的プロンプトを上回る。
  • このアプローチはドメインのばらつき(オープンドメイン対指示型動画)をより適切に扱い、ASR転写などの追加モダリティの恩恵を受ける。
  • 動画-言語イベント予測では、VidILの10ショット構成が、より大規模な動画データセットで訓練された完全監督ベースラインの一部を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。