[論文レビュー] MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models
MICON-Bench は、マルチ画像文脈生成の六タスク・ベンチマークを導入し、Dynamic Attention Rebalancing(DAR)を提示します。DAR は統一型多模偽モデルにおけるクロス画像の一貫性を向上させるプラグアンドプレイ方式です。評価をサブセット化してチェックポイントごとに検証する Evaluation-by-Checkpoint フレームワークは自動評価のための MLLM バリファイアを使用します。
Recent advancements in Unified Multimodal Models (UMMs) have enabled remarkable image understanding and generation capabilities. However, while models like Gemini-2.5-Flash-Image show emerging abilities to reason over multiple related images, existing benchmarks rarely address the challenges of multi-image context generation, focusing mainly on text-to-image or single-image editing tasks. In this work, we introduce \textbf{MICON-Bench}, a comprehensive benchmark covering six tasks that evaluate cross-image composition, contextual reasoning, and identity preservation. We further propose an MLLM-driven Evaluation-by-Checkpoint framework for automatic verification of semantic and visual consistency, where multimodal large language model (MLLM) serves as a verifier. Additionally, we present \textbf{Dynamic Attention Rebalancing (DAR)}, a training-free, plug-and-play mechanism that dynamically adjusts attention during inference to enhance coherence and reduce hallucinations. Extensive experiments on various state-of-the-art open-source models demonstrate both the rigor of MICON-Bench in exposing multi-image reasoning challenges and the efficacy of DAR in improving generation quality and cross-image coherence. Github: https://github.com/Angusliuuu/MICON-Bench.
研究の動機と目的
- 統一型多模態モデル(UMMs)が複数の関連参照画像を条件に画像を処理・生成する能力を評価する。
- クロス画像構成、文脈的推論、アイデンティティ保持を検証する六タスクを網羅する包括的で拡張性のあるベンチマーク(MICON-Bench)を提供する。
- タスクごとの客観的スコアリングのために MLLM バリファイアを使用する自動評価-by-チェックポイントフレームワークを導入する。
- 推論時の注意分布を改善し、クロス画像の幻覚を減らす訓練不要の機構(Dynamic Attention Rebalancing, DAR)を提案する。
提案手法
- 六つのマルチ画像文脈タスクを定義する:オブジェクト構成、空間構成、属性の分離、部品転送、FG/BG 構成、ストーリー生成。
- 評価-by-チェックポイントのパイプラインを使用し、MLLM が事前定義の視覚的/意味的チェックポイントを検証し、合格/不合格の二値を出力して平均化する。
- 参照トークン重要度をヘッドごとに推定するためにクエリトークンの一部をサンプリングして注意マップを計算・調整する(DAR)。
- 参照トークンの注意スコアを最大/最小正規化して高度に関連する領域と無関連領域を識別する。
- 閾値を用いて注意計算における参照トークンの重みを動的に再割り当てし、領域への注意を高めるまたは抑制する(tau_high、tau_low、gamma)。
- DAR を訓練不要なプラグインとして示し、オーバーヘッドを最小化しつつクロス画像の一貫性を向上させる。

実験結果
リサーチクエスチョン
- RQ1現在の UMM で複数の参照画像から整合的に画像を生成し、参照間のアイデンティティと関係性を保持できるか。
- RQ2MICON-Bench は最先端モデルにおけるクロス画像推論と一貫性の課題をどれだけ明らかにするか。
- RQ3提案された Dynamic Attention Rebalancing(DAR)は複数参照に渡る物体認識、空間推論、属性整合を向上させるか。
- RQ4参照画像の数が生成性能とモデルの融合ロバスト性にどのような影響を与えるか。
- RQ5MLLMベースの検証はタスク間の標準的な知覚・意味指標と相関するか。
主な発見
| モデル | オブジェクト | 空間 | 属性 | 部品 | FG/BG | ストーリー | 平均スコア |
|---|---|---|---|---|---|---|---|
| Nano-Banana | 95.60 | 93.79 | 92.13 | 84.23 | 83.13 | 82.84 | 89.25 |
| GPT-Image | 96.45 | 94.41 | 93.39 | 87.69 | 90.15 | 85.99 | 91.51 |
| UNO | 58.40 | 66.68 | 65.28 | 28.84 | 20.96 | 39.08 | 44.76 |
| DreamOmni2 | 88.24 | 84.76 | 85.28 | 59.64 | 76.16 | 59.58 | 75.56 |
| Qwen-Image-Edit-2507 | 96.52 | 88.80 | 78.04 | 42.68 | 72.08 | 63.81 | 72.96 |
| BAGEL | 87.64 | 89.96 | 89.84 | 52.40 | 64.64 | 65.09 | 73.55 |
| BAGEL + DAR | 88.04 | 91.88 | 90.76 | 56.06 | 71.24 | 66.34 | 76.31 |
| OmniGen2 | 89.52 | 80.32 | 81.64 | 44.76 | 57.96 | 60.96 | 67.83 |
| OmniGen2 + DAR | 89.84 | 81.00 | 82.12 | 48.72 | 59.28 | 60.73 | 69.21 |
- DAR は複数タスクで OmniGen2 と BAGEL の性能を一貫して向上させ、特に Component、FG/BG、Story の性能で顕著である。
- 最先端の UMM はクロス画像の一貫性に苦戦し、参照間で注意を均等に分散させる傾向がある。
- 参照画像数を増やすと BAGEL と OmniGen2 の性能が低下し、多参照設定での統合課題を示す。
- DAR は クロス画像の一貫性を向上させ、複数のベンチマークで CLIP、DINO v2、LPIPS 指標の改善として現れる。
- DAR の改善は MICON-Bench を超えて OmniContext や XVerseBench などにも及び、多様なマルチ画像ベンチマークでの頑健性を示す。
- 表1 は DAR の有無によるモデルスコアを示し、DAR を適用することで全体的な平均が改善されることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。