[論文レビュー] OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
本論文は、Fine-grained visual discrepancy sensitivity を評価するための制御可能な 1,400-画像グリッドベンチマーク OddGridBench を導入し、知覚的識別を改善するための curriculum- および distance-aware RL フレームワーク OddGrid-GRPO を提案する。
Multimodal large language models (MLLMs) have achieved remarkable performance across a wide range of vision language tasks. However, their ability in low-level visual perception, particularly in detecting fine-grained visual discrepancies, remains underexplored and lacks systematic analysis. In this work, we introduce OddGridBench, a controllable benchmark for evaluating the visual discrepancy sensitivity of MLLMs. OddGridBench comprises over 1,400 grid-based images, where a single element differs from all others by one or multiple visual attributes such as color, size, rotation, or position. Experiments reveal that all evaluated MLLMs, including open-source families such as Qwen3-VL and InternVL3.5, and proprietary systems like Gemini-2.5-Pro and GPT-5, perform far below human levels in visual discrepancy detection. We further propose OddGrid-GRPO, a reinforcement learning framework that integrates curriculum learning and distance-aware reward. By progressively controlling the difficulty of training samples and incorporating spatial proximity constraints into the reward design, OddGrid-GRPO significantly enhances the model's fine-grained visual discrimination ability. We hope OddGridBench and OddGrid-GRPO will lay the groundwork for advancing perceptual grounding and visual discrepancy sensitivity in multimodal intelligence. Code and dataset are available at https://wwwtttjjj.github.io/OddGridBench/.
研究の動機と目的
- MLLMs における高レベルタスクを超えた低レベルの視覚知覚を評価する必要性を動機付ける。
- OddGridBench を提案し、色・大きさ・回転・位置の知覚的ディスクリップシー感度を定量化する。
- 多くの MLLMs が微細な視覚的摂動で人間を下回ることを示す。
- カリキュラム学習と距離依存報酬により、OddGrid-GRPO を開発して知覚的基盤づけを強化する。
提案手法
- OddGridBench は、単一属性および複数属性の不一致を含むグリッドベースの画像を構築し、訓練/検証用スプリットを含む 1,400 件のテストサンプルを提供する。
- アイコンは制御された知覚操作を可能にする SVG の IconFont および Material Design Icons を使用する。
- OddGrid-GRPO はカリキュラム学習と距離感知報酬を組み合わせ、微細な空間的位置推定のための RL 最適化を導く。
- 距離報酬は空間距離と共にガウス様関数様の適応シグマで減衰し、わずかなバイアスを加え、全体報酬は形式ペナルティとこの報酬をブレンドする。
- カリキュラムに導かれた最適化はサンプルを Easy/Medium/Hard に分割し、三つの段階で段階的に学習を安定化させる。
- 評価はオープンソースおよび専有ファミリからの 19 個の MLLMs を用い、ベースラインおよびアブレーションと比較する。

実験結果
リサーチクエスチョン
- RQ1現在の MLLMs は粗い差と beyond の微細な視覚ディスクリプancy を grid ベースのシーンで検知できるか。
- RQ2色・大きさ・回転・位置の摂動および複数属性の組み合わせに対するモデルの性能はどのように変化するか。
- RQ3距離感知報酬を伴うカリキュラム付き RL は知覚感度と定位精度を改善できるか。
- RQ4OddGridBench タスクにおける人間の知覚と MLLMs とのギャップはどの程度か。
- RQ5RL ベースの改善はモデルファミリや知覚タスク間で一般化するか。
主な発見
| Method | Color | Size | Rotation | Position | 2-Type | 3-Type | 4-Type | Total |
|---|---|---|---|---|---|---|---|---|
| Baseline | 23.00 | 5.00 | 12.50 | 7.00 | 19.00 | 22.50 | 31.00 | 17.14 |
| GRPO | 88.50 | 44.00 | 67.50 | 41.50 | 78.50 | 83.00 | 93.00 | 70.86 |
| GSPO | 70.00 | 55.00 | 81.50 | 59.00 | 85.50 | 85.50 | 95.00 | 75.93 |
| OddGrid-GRPO (w/o rd) | 87.50 | 44.50 | 67.00 | 45.50 | 80.50 | 91.00 | 91.50 | 72.50 |
| OddGrid-GRPO (w/o Cur-Guided) | 87.50 | 60.50 | 69.00 | 64.00 | 84.00 | 88.50 | 95.50 | 78.43 |
| OddGrid-GRPO | 89.50 | 64.50 | 80.50 | 64.50 | 90.50 | 91.50 | 97.50 | 82.64 |
- 人間の性能は、色・大きさ・回転・位置・複数属性タスクのすべてで評価対象の全ての MLLMs を大きく上回る。
- Qwen3-VL-32B は全体精度で最高の 68.07% を達成するが、全モデルは人間 87.47% に及ばない。
- OddGrid-GRPO は GRPO およびベースラインを上回り、総合精度 82.64% を達成し、回転と位置で顕著な改善を示す。
- 距離報酬またはカリキュラム導入を外すと性能が低下し、距離依存のフィードバックと段階的学習の利点が示される。
- 知覚ディスクリエンスの大きさが大きくなるほど精度は向上し、色の利益が最も大きく、回転・位置は遅れが見られ、現行モデルの微細な感度は限定的である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。