[論文レビュー] Kosmos-2: Grounding Multimodal Large Language Models to the World
Kosmos-2 は、テキストのスパンを location tokens 経由で画像領域と結びつける地に足のついたマルチモーダルLLMであり、GrIT データセットを用いて構築され、 grounding、referring、perception-language、および language タスクで評価される。
We introduce Kosmos-2, a Multimodal Large Language Model (MLLM), enabling new capabilities of perceiving object descriptions (e.g., bounding boxes) and grounding text to the visual world. Specifically, we represent refer expressions as links in Markdown, i.e., ``[text span](bounding boxes)'', where object descriptions are sequences of location tokens. Together with multimodal corpora, we construct large-scale data of grounded image-text pairs (called GrIT) to train the model. In addition to the existing capabilities of MLLMs (e.g., perceiving general modalities, following instructions, and performing in-context learning), Kosmos-2 integrates the grounding capability into downstream applications. We evaluate Kosmos-2 on a wide range of tasks, including (i) multimodal grounding, such as referring expression comprehension, and phrase grounding, (ii) multimodal referring, such as referring expression generation, (iii) perception-language tasks, and (iv) language understanding and generation. This work lays out the foundation for the development of Embodiment AI and sheds light on the big convergence of language, multimodal perception, action, and world modeling, which is a key step toward artificial general intelligence. Code and pretrained models are available at https://aka.ms/kosmos-2.
研究の動機と目的
- 模糊さを低減し視覚的回答を可能にするため、multimodal LLMの基盤機能として grounding を推進する。
- GrIT を導入する。大規模な grounding された image-text データセットで、句を bounding boxes に結びつける。
- Kosmos-1 を grounding と referring で拡張し、領域ベースの入力/出力とテキストの視覚的 grounding を実現する。
- Kosmos-2 の grounding、referring、perception-language、および language タスクでの有効性を示す。
提案手法
- 参照表現を、テキストスパンを location tokens の連続にリンクする Markdown のハイパーリンクとして表現する。
- キャプションから名詞句と referring expressions を抽出して、それらを検出器(例:GLIP)と spaCy ベースの解析を用いて画像領域に grounding することで GrIT を構築する。
- バウンディングボックスの座標を location tokens に離散化し、対応するテキストスパンに unified <grounding> 形式で付加する。
- Kosmos-2 を Kosmos-1 から初期化された Transformer ベースの因果言語モデルとして訓練し、grounding 固有のデータと next-token objective を用いる。
- 指示チューニングでは、視覚-言語データと言語のみの指示データを、GrIT からの grounding データと組み合わせて、 grounding プロンプトに出力を整合させる。
実験結果
リサーチクエスチョン
- RQ1Kosmos-2 はテキストを特定の画像領域に grounding し、応答の一部として bounding boxes を出力できるか。
- RQ2grounding は、語句 grounding および referring expression タスクのパフォーマンスを、先行の MLLMs と比べてどのように影響するか。
- RQ3Kosmos-2 は grounding-enabled な下流タスク(grounded image captioning や grounded VQA など)を実行できるか。
- RQ4grounding および referring 能力は、標準の perception-language および language タスクとどのように相互作用するか。
主な発見
- Kosmos-2 は、語句 grounding を含む強力な grounding 効力を達成し、referring expression の理解を含め、grounding ベンチマークでいくつかのベースラインを上回る。
- RefCOCOg でゼロショットおよび少数ショットの改善を含む、効果的な referring expression の生成を示す。
- grounded な入力は、grounded image captioning や grounded visual question answering のような新しい下流タスクを可能にしつつ、コアの言語および視覚-言語能力を損なわない。
- perception-language タスク(image captioning および VQA)では、Kosmos-2 は Kosmos-1 と競合可能であり、grounding 統合による大きな劣化はみられない。
- 標準言語タスクでは、Kosmos-2 は Kosmos-1 と同等の性能を示し、一部指標が改善(例:BoolQ、COPA)する一方で、他は安定している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。