QUICK REVIEW

[論文レビュー] Unified Vision-Language Modeling via Concept Space Alignment

Yifu Qiu, Paul-Ambroise Duquenne|arXiv (Cornell University)|Mar 1, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

要約: 本論文は Visionエンコーダを Sonar の多言語埋め込み空間にポストホック整列させ、視覚−言語タスクを可能にする v-Sonar を提案し、その空間での潜在拡散型視覚−言語モデリングを可能にする v-LCM を導入する。

ABSTRACT

We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0). Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.

研究の動機と目的

Sonar を拡張した画像・動画モダリティの視覚−言語埋め込み空間を作成することを目的とする。
coarse から fine へのカリキュラムで Vision エンコーダを Sonar に整列させ、ゼロショット且つ多言語の視覚−言語タスクを実現する。
LCM が Sonar/v-Sonar 潜在空間で視覚−言語推論と指示チューニングを行えることを示す。
結果として得られるモデルが動画検索、キャプション生成、および多言語タスクで競争力のある、または最先端の結果を達成することを示す。

提案手法

Perception Encoder を軽量なプロジェクタを用いて Sonar にポストホック整列。
3 段階のカリキュラム：粗いグ grounding のための 1200 万組の画像–キャプション、時相適応のための 200 万の合成動画–キャプション組、細かな整列のための高品質動画キャプション 20 万。
視覚埋め込みとテキスト埋め込みを Sonar 空間で整列するために平均二乗誤差 (MSE) 損失を使用。Sonar を固定し、プロジェクタ／視覚エンコーダを更新。
線形投影と完全ファインチューニングを比較し、アーキテクチャおよびデータのアブレーションを伴う漸進的な学習設定を採用。
Sonar を OmniSONAR に拡張し、埋め込み品質の優越性を示す。埋め込み空間の性質（跡関数、対数行列行列式）を評価。
LCM は Sonar 空間で動作し、文脈埋め込みに条件づけられた次の埋め込みを予測する拡散目的を用いる（ツー・タワー版）。
Vision–Language Instruction Tuning データ（M3IT）で訓練された v-LCM は、視覚–言語指示チューニングを通じて、v-Sonar の視覚埋め込みと Sonar のテキスト埋め込みを連結し、潜在空間で次の埋め込みを予測する。

実験結果

リサーチクエスチョン

RQ1視覚エンコーダを言語非依存の埋め込み空間（Sonar）へポストホックに整列させて、視覚−言語タスクをサポートできるか。
RQ23 段階のカリキュラムは、マルチリンガルデータに対する検索・キャプション生成の整列品質と下流性能を向上させるか。
RQ3Large Concept Model (LCM) は Sonar 潜在空間でゼロショット動作可能か、視覚−言語指示チューニング（v-LCM）は強力な多言語 VLM 性能をもたらすか。
RQ4v-LCM は画像/動画のキャプション生成、VQA、マルチリンガルベンチマークで、最先端の視覚−言語モデルと比較してどうか。

主な発見

v-Sonar は PE-Video、Vatex、Dream-1k でのゼロショットのテキスト→動画検索で競争力を示す。
v-Sonar と Sonar デコーダーを組み合わせると、PE-Video、Dream-1k、Vatex データセットで最先端または強力な動画キャプション生成結果を得られる。
Sonar に整列した LCM は、視覚タスクのゼロショット設定で単一・多概念の視覚理解を行える。
v-LCM は vision–language instruction-tuning データ（M3IT）で訓練され、キャプション生成と QA タスクでいくつかの VLM ベースラインを上回り、多言語評価で 62 言語中 61 言語で上回る。
M3IT の 62 言語において、v-LCM は Qwen2.5-VL-7B および PLM-8B をほとんどの言語で上回り、中〜低資源言語で特に顕著な向上を示す。
v-LCM は動画 QA（IVQA、ActivityNetQA、MSRVTT-QA）で強力な性能を示し、動画キャプション生成と要約でも競争力のある結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。