QUICK REVIEW

[論文レビュー] VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

Sihan Chen, Handong Li|arXiv (Cornell University)|May 29, 2023

Multimodal Machine Learning Applications被引用数 28

ひとこと要約

この論文は VAST-27M という大規模オムニモーダリティ動画キャプションデータセットと、視覚、音声、字幕、テキストを同時にモデリングする VAST ファウンデーションモデルを導入し、視覚-テキスト、音声-テキスト、およびマルチモーダル動画-テキストタスクの最先端結果を達成します。

ABSTRACT

Vision and text have been fully explored in contemporary video-text foundational models, while other modalities such as audio and subtitles in videos have not received sufficient attention. In this paper, we resort to establish connections between multi-modality video tracks, including Vision, Audio, and Subtitle, and Text by exploring an automatically generated large-scale omni-modality video caption dataset called VAST-27M. Specifically, we first collect 27 million open-domain video clips and separately train a vision and an audio captioner to generate vision and audio captions. Then, we employ an off-the-shelf Large Language Model (LLM) to integrate the generated captions, together with subtitles and instructional prompts into omni-modality captions. Based on the proposed VAST-27M dataset, we train an omni-modality video-text foundational model named VAST, which can perceive and process vision, audio, and subtitle modalities from video, and better support various tasks including vision-text, audio-text, and multi-modal video-text tasks (retrieval, captioning and QA). Extensive experiments have been conducted to demonstrate the effectiveness of our proposed VAST-27M corpus and VAST foundation model. VAST achieves 22 new state-of-the-art results on various cross-modality benchmarks. Code, model and dataset will be released at https://github.com/TXH-mercury/VAST.

研究の動機と目的

従来の視覚-テキストモデルを超え、視覚・音声・字幕を活用したオムニモーダリティ動画理解を促進する。
視覚・音声・字幕のキャプション生成を自動化して、スケーラブルなオムニモーダリティキャプションデータセットを作成する。
検索・キャプション・QAなど多様な下流タスクのために、4つのモダリティを処理・融合する統一ファウンデーションモデルを訓練する。
オムニモダリティ事前学習が、従来のクロスモダリティ手法よりクロスモダリティ指標を改善することを示す。

提案手法

VAST-27M を作成するための2段階の自動パイプライン：別々の視覚キャプション作成器と音声キャプション作成器を訓練し、次にLLMを用いて単一モダリティのキャプションと字幕からオムニモダリティキャプションを生成する。
27M の動画クリップから VAST-27M を構築し、1クリップにつき11件のキャプション（5件 vision、5件 audio、1件 omni-modality）。
VAST を提案。1.3BパラメータのTransformerベースのファウンデーションモデルで、視覚(ViT)、音声(BEATs)、テキスト(BERT)エンコーダと融合のためのクロスアテンションを持つ。
3つのOmni-Modality目的で訓練：OM-VCC（対照学習）、OM-VCM（マッチング）、OM-VCG（オムニモーダリティキャプション生成）。
前訓練とファインチューニングでモダリティグルーピングを用い、下流タスクで欠損モダリティに対応する。

実験結果

リサーチクエスチョン

RQ1オムニモダリティ動画キャプションコーパスは、視覚-テキストモデルを超えたクロスモダリティ理解を改善できるか？
RQ2統一された視覚-音声-字幕-テキストファウンデーションモデルは、多様なベンチマークで検索、キャプション、QAタスク全般に一般化しますか？
RQ3大規模オムニモダリティ事前学習とLLMベースのキャプション統合が下流の性能に与える影響は何か？
RQ4品質と規模の点で、VAST-27Mは既存のクロスモダリティコーパスとどう比較されるか？
RQ5各モダリティとオムニモーダリティ目的の重要性を明らかにするアブレーションは何か？

主な発見

VAST はクロスモダリティベンチマークで22個の新しい状態最先端結果を達成。
VAST は視覚-テキスト、音声-テキスト、およびマルチモーダル動画-テキストタスクで、検索、キャプション、QA において従来モデルを上回る。
オムニモダリティ事前学習は、V-TおよびA-T設定で様々なオープンソースコーパスに対して大幅な利得を提供し、OMV-OMCの整合性を改善する。
単一モダリティのキャプションからオムニモダリティキャプションを生成するのにLLMを使用すると、単純なキャプション連結より良い結果が得られる。
MSRVTT、YouCook2、VATEX、VALOR-32K などのデータセットで強い性能を示し、SOTAベースラインに対してしばしば大幅な利得をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。