[論文レビュー] Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning
Vid2Seqは、未ラベルの語り動画で事前学習された多モーダルの単段階密集イベントキャプションモデルで、視覚入力と書き起こし音声の入力からイベント境界とキャプションを同時に予測します。いくつかの密集ビデオキャプションのベンチマークで最先端の結果を達成し、パラグラフキャプションやクリップキャプション、さらにfew-shot設定への一般化も示します。
In this work, we introduce Vid2Seq, a multi-modal single-stage dense event captioning model pretrained on narrated videos which are readily-available at scale. The Vid2Seq architecture augments a language model with special time tokens, allowing it to seamlessly predict event boundaries and textual descriptions in the same output sequence. Such a unified model requires large-scale training data, which is not available in current annotated datasets. We show that it is possible to leverage unlabeled narrated videos for dense video captioning, by reformulating sentence boundaries of transcribed speech as pseudo event boundaries, and using the transcribed speech sentences as pseudo event captions. The resulting Vid2Seq model pretrained on the YT-Temporal-1B dataset improves the state of the art on a variety of dense video captioning benchmarks including YouCook2, ViTT and ActivityNet Captions. Vid2Seq also generalizes well to the tasks of video paragraph captioning and video clip captioning, and to few-shot settings. Our code is publicly available at https://antoyang.github.io/vid2seq.html.
研究の動機と目的
- 数分間の動画において、イベントを同時に局在しキャプションを生成する統一的なシーケンス・ツー・シーケンスタスクとして、密集ビデオキャプションを動機づける。
- 転写された音声の境界を擬似的なイベント境界として再定義して、未ラベルの語り動画を事前学習に活用する。
- 大規模なクロスモーダル事前学習が、複数のデータセットにわたる密集キャプション、パラグラフキャプション、ビデオクリップキャプションを改善することを示す。
- 言語モデルのサイズと事前学習データ規模の利点を示し、few-shot 微調整を検討する。
提案手法
- テキストキャプションとイベントのタイムスタンプを表す特殊な時間トークンの両方を含む単一のトークン列を出力する、マルチモーダルエンコーダ-デコーダである Vid2Seq を提案する。
- 時間トークンを用いて、キャプションと時間境界の共同生成を1つのシーケンスで可能にするよう、既存の言語モデルを拡張する。
- 時間トークンをテキストトークンと交互に配置して出力イベント系列と入力の音声系列を構成する。凍結した CLIP ViT-L/14 の視覚バックボーンを使用する。
- 未ラベルの語り動画で、視覚情報から転写音声を予測する生成的目的と、マスクされた音声区間を復元するデノイジング目的の2つの目的で事前学習する。
- イベント系列の尤度を最大化することで、ダウンストリームの密集ビデオキャプションのファインチューニングを行い、推論にはビームサーチを用いる。
- 時間トークンを用いた未トリミング語り動画での事前学習が性能を向上させ、共同のキャプション付与と局在化が局在化指標の改善につながることを示す。
実験結果
リサーチクエスチョン
- RQ1単一の統一モデルは、多モーダル入力から密集ビデオキャプションとそれらの時間的グラウンドを生成できるか?
- RQ2弱教師付きの未ラベル語り動画での大規模な事前学習は、データセット間で密集ビデオキャプションを改善するか?
- RQ3入力モダリティ(視覚のみ vs 視覚+音声)と事前学習目的(生成とデノイジング)が性能にどう影響するか?
- RQ4言語モデルのサイズと事前学習データ規模が下流の密集ビデオキャプションタスクに与える影響は何か?
- RQ5Vid2Seq はパラグラフキャプション、ビデオクリップキャプション、そして few-shot 密集キャプションへ一般化できるか?
主な発見
- Vid2Seq は密集ビデオキャプションで YouCook2、ViTT、ActivityNet Captions において最先端の結果を達成した。
- 時間トークン統合を伴う未トリミング語り動画での事前学習はベースラインより著しい利得をもたらし、音声境界を活用するには時間トークンが不可欠である。
- イベント境界とキャプションを共同予測することは、局在化のみのバリアントより局在指標を改善する。
- より大きな言語モデル(例:T5-Base)とより大きな事前学習データ(YT-Temporal-1B、HowTo100M)はより強力な結果を生み、事前学習データをスケールさせると顕著な利得がある。
- Vid2Seq は動画のパラグラフキャプションやビデオクリップキャプションへ一般化し、few-shot 設定での利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。