[論文レビュー] LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment
LanguageBindは動画と言語の事前学習をNモダリティへ拡張し、すべてのモダリティを直接言語空間に整合させ、10Mの言語整列マルチモーダルペアを持つVIDAL-10Mを導入し、VL、IL、DL、ALタスク全体で強力なゼロショットおよびリトリーブ結果を達成します。
The video-language (VL) pretraining has achieved remarkable improvement in multiple downstream tasks. However, the current VL pretraining framework is hard to extend to multiple modalities (N modalities, N>=3) beyond vision and language. We thus propose LanguageBind, taking the language as the bind across different modalities because the language modality is well-explored and contains rich semantics. Specifically, we freeze the language encoder acquired by VL pretraining, then train encoders for other modalities with contrastive learning. As a result, all modalities are mapped to a shared feature space, implementing multi-modal semantic alignment. While LanguageBind ensures that we can extend VL modalities to N modalities, we also need a high-quality dataset with alignment data pairs centered on language. We thus propose VIDAL-10M with Video, Infrared, Depth, Audio and their corresponding Language, naming as VIDAL-10M. In our VIDAL-10M, all videos are from short video platforms with complete semantics rather than truncated segments from long videos, and all the video, depth, infrared, and audio modalities are aligned to their textual descriptions. LanguageBind has achieved superior performance on a wide range of 15 benchmarks covering video, audio, depth, and infrared. Moreover, multiple experiments have provided evidence for the effectiveness of LanguageBind in achieving indirect alignment and complementarity among diverse modalities. Code address: https://github.com/PKU-YuanGroup/LanguageBind
研究の動機と目的
- 言語を結合的な意味的アンカーとして用い、視覚と言語を超えてNモダリティへ動画-言語の事前学習を拡張する動機付け。
- VL事前学習から言語エンコーダを凍結し、他のモダリティのエンコーダを対照学習で訓練して、すべてのモダリティを共有された意味空間にマッピングする。
- VL、IL、DL、ALを横断する大規模で直接言語整列されたマルチモーダルデータセット(VIDAL-10M)を作成し、スケーラブルな事前学習をサポートする。
- 直接的な言語ベースの整合を通じて、動画、深度、赤外線、音声モダリティ全般でゼロショット検索と分類の改善を示す。
提案手法
- OpenCLIP-largeから初期化した非言語モダリティ用の24層ビジョントランスフォーマーエンコーダを使用する;深度と赤外線をRGB等価物として扱い、音声を10秒のスペクトログラムに変換してチャネルを複製する。
- エンコード時の効率を高めるためにパッチベースのマスキングとMAE風トークンマスキングを適用する。
- 言語エンコーダを凍結したままLoRAでモダリティエンコーダを微調整し、効率的なマルチモーダル整合を可能にする。
- テキストをエンコードし整合のためのテキストロジットを生成するため、OpenCLIPから初期化した12層の言語トランスフォーマーを用いる。
- 各モダリティを言語と共有埋め込み空間に整合させるため、双方向対照目的(L_M2TとL_T2M)を最適化する。
実験結果
リサーチクエスチョン
- RQ1言語を直接的に整合させるアプローチは、イメージを intermediaries として用いずにVL事前学習をNモダリティへスケーラブルに拡張できるのか。
- RQ2凍結された言語エンコーダと対照学習を用いた学習は、深度、赤外線、音声などの他モダリティを言語へ効果的に整合させるのか。
- RQ3大規模で言語整列されたVIDAL-10Mデータセットは、ゼロショット検索やモダリティ特有の分類タスクにどのような影響を与えるのか。
- RQ4LanguageBindは動画-言語およびクロスモーダルベンチマークで、従来の多モーダル手法と比べてどの程度の利点を示すのか。
主な発見
- LanguageBindはMSR-VTT、MSVD、DiDeMo、ActivityNetで複数のベースラインと比較して最先端のゼロショット動画-テキスト検索を達成。
- LanguageBindは深度(NYU-D)と赤外線(LLVIP)の分類において、ImageBindおよびOpenCLIPベースラインに対して顕著なゼロショット改善を示す。
- LanguageBindはClothoおよびAudiocapsで音声-言語検索を向上させ、AVFICおよびImageBindを上回る。
- VIDAL-10MはVL、IL、DL、ALの直接言語整列データを提供し、MSR-VTTおよびMSVDのゼロショット評価でHowTo100Mサブセットを上回る。
- 実験は、直接の言語整列、出現するクロスモーダル検索、および複数モダリティの補完的利用がこのアプローチの利点であることを示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。