[論文レビュー] Mimic Human Cognition, Master Multi-Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding
CINEMAは、リトリーバルに基づくツリーサンプリングと2段階の強化学習プロセスを用いて、複数画像・複数フレーム・単一画像の推論で優れた成績を発揮する認知感知型のメタアクションフレームワークを提案し、複数のベンチマークで最先端の結果を達成します。
While Multimodal Large Language Models (MLLMs) excel at single-image understanding, they exhibit significantly degraded performance in multi-image reasoning scenarios. Multi-image reasoning presents fundamental challenges including complex inter-relationships between images and scattered critical information across image sets. Inspired by human cognitive processes, we propose the Cognition-Inspired Meta-Action Framework (CINEMA), a novel approach that decomposes multi-image reasoning into five structured meta-actions: Global, Focus, Hint, Think, and Answer which explicitly modeling the sequential cognitive steps humans naturally employ. For cold-start training, we introduce a Retrieval-Based Tree Sampling strategy that generates high-quality meta-action trajectories to bootstrap the model with reasoning patterns. During reinforcement learning, we adopt a two-stage paradigm: an exploration phase with Diversity-Preserving Strategy to avoid entropy collapse, followed by an annealed exploitation phase with DAPO to gradually strengthen exploitation. To train our model, we construct a dataset of 57k cold-start and 58k reinforcement learning instances spanning multi-image, multi-frame, and single-image tasks. We conduct extensive evaluations on multi-image reasoning benchmarks, video understanding benchmarks, and single-image benchmarks, achieving competitive state-of-the-art performance on several key benchmarks. Our model surpasses GPT-4o on the MUIR and MVMath benchmarks and notably outperforms specialized video reasoning models on video understanding benchmarks, demonstrating the effectiveness and generalizability of our human cognition-inspired reasoning framework.
研究の動機と目的
- 人間の認知的ステップを模倣して、複数画像設定でのマルチモーダル推論の改善を動機づける。
- 画像セット全体の推論を構造化する5アクションのメタアクションフレームワークを提案する。
- 推論軌跡のブートストラップと洗練のためのデータ生成および訓練戦略を開発する。
- 複数画像・複数フレーム・単一画像タスクに対して、強力なベンチマーク結果とともに一般化を示す。
提案手法
- 5つのメタアクションを定義する:Global、Focus、Hint、Think、Answer を用いて逐次推論を導く。
- Retrieval-Based Tree Samplingを導入し、学生-教師の洗練とリトリーバルを通じて多様で高品質な推論軌跡を生成する。
- 複数画像・複数フレーム・単一画像タスクを網羅する57kのcold-startと58kの強化学習インスタンスを含む訓練データセットを構築する。
- 探索を維持する多様性保持戦略と、利用を進めるためのannealed DAPOの2段階強化学習パラダイムを採用する。
- Qwen2.5VL 7Bバックボーンで、指定されたRLおよびプロンプティング設定を用いて学習する。数学タスクにはmath_verify/mathrulerを、その他には厳密文字列一致を用いる。
実験結果
リサーチクエスチョン
- RQ1多様な推論軌跡は複数画像推論の性能を向上させるか。
- RQ2複数画像タスクにおける入力画像数の変動をモデルはどう扱うか。
- RQ3CINEMAはさまざまなタスクカテゴリー(複数画像、動画、単一画像)でどのように機能するか。
- RQ4各メタアクションが全体の性能にどのように寄与するか。
- RQ52段階の強化学習はエントロピー・探索・性能にどう影響するか。
主な発見
| Model | MUIR | MMIU | MVMATH | EMMA | MIRB | Mantis | MVBench | VideoMME | VideoMMMU | Overall |
|---|---|---|---|---|---|---|---|---|---|---|
| Ours | 71.6 | 53.3 | 36.9 | 29.3 | 55.2 | 67.7 | 66.5 | 59.4 | 49.0 | 54.3 |
| Ours [with DPS] | 67.9 | 52.2 | 35.1 | 28.4 | 54.4 | 71.0 | 67.1 | 60.2 | 51.6 | 54.2 |
| Ours [with DPS and annealing] | 71.0 | 52.2 | 35.0 | 28.6 | 55.7 | 68.4 | 66.8 | 61.0 | 50.1 | 54.3 |
- 複数の複数画像ベンチマーク(MUIR、MVMath、EMMA、VideoMME、VideoMMMU)で最先端を達成。
- 複数画像設定でMUIRおよびMVMathベンチマークにおいてGPT-4oを上回る。
- ビデオ理解ベンチマークでいくつかの専門的な動画推論モデルを上回る。
- 単一画像タスクで強力な性能を示し、専用の単一画像モデルと同等または上回る。
- 多様性を保持する2段階RLは、探索を高エントロピーのまま維持しつつ競争力のある精度を達成。
- インスタンスあたり2つの軌跡を用いたRetrieval-Based Tree Samplingは、単一軌跡訓練より平均性能を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。