QUICK REVIEW

[論文レビュー] Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Aadi Palnitkar, Mengyun Mao|arXiv (Cornell University)|Jan 29, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

MilSCORE は軍事 OPORD に基づくシナリオレベルのマルチホップ地理空間ベンチマークを導入し、ビジョン-言語モデルの長文脈推論を評価します。ベースラインの結果から、現在のモデルは高レベルの計画タスクで苦戦しています。

ABSTRACT

As large language models (LLMs) are applied to increasingly longer and more complex tasks, there is a growing need for realistic long-context benchmarks that require selective reading and integration of heterogeneous, multi-modal information sources. This need is especially acute for geospatial planning problems, such as those found in planning for large-scale military operations, which demand fast and accurate reasoning over maps, orders, intelligence reports, and other distributed data. To address this gap, we present MilSCORE (Military Scenario Contextual Reasoning), to our knowledge the first scenario-level dataset of expert-authored, multi-hop questions grounded in a complex, simulated military planning scenario used for training. MilSCORE is designed to evaluate high-stakes decision-making and planning, probing LLMs' ability to combine tactical and spatial reasoning across multiple sources and to reason over long-horizon, geospatially rich context. The benchmark includes a diverse set of question types across seven categories targeting both factual recall and multi-step reasoning about constraints, strategy, and spatial analysis. We provide an evaluation protocol and report baseline results for a range of contemporary vision-language models. Our findings highlight substantial headroom on MilSCORE, indicating that current systems struggle with realistic, scenario-level long-context planning, and positioning MilSCORE as a challenging testbed for future work.

研究の動機と目的

現実的な訓練 OPORD シナリオに由来する長文脈地理空間計画タスクに対するビジョン-言語モデルの性能を評価する。
地図、GeoJSON オーバーレイ、テキスト命令を跨ぐ多源・多モーダル情報の統合能力を評価する。
シナリオレベルの軍事意思決定における現代 VLM の失敗モードと実践的制約を特徴付ける。
長文脈・空間的に grounded な AI の将来の改善を導く評価プロトコルとベースライン結果を提供する。

提案手法

専門家作成のマルチホップ問題を含むマルチモーダルデータセット MilSCORE を導入し、現実的な訓練 OPORD シナリオからの 50 種の運用地図を基盤とする。
ESRI の空間分析分類に触発された 3 つの難易度階層と 7 種類の空間分析カテゴリにタスクを分類する。
バウンダリのある 10 ステップの推論予算内で、地図・OPORD PDF・スプレッドシートなどの情報源を取得・検査するツール使用型のチェーン・オブ・ソート Agent を用いる。
ゼロショットおよびチェーン・オブ・ソートの体制下で生産VLM（GPT-4o、Claude Sonnet 4.5、Claude Haiku 4.5、Gemini 2.5 Flash）を評価する。
専門家リファレンスに対して、正規化ベースの部分文字列包含指標で最終回答を採点し、ツールエラーを不正解として扱う。
画像統合を base64 ペイロードとして実装するツール使用 ReAct ライクループと、ページ制限を設けた評価プロトコルを提供する。

実験結果

リサーチクエスチョン

RQ1現代の VLM は、複数の異種ソースを横断する長文脈・シナリオレベルの軍事地理空間推論を実行できるか。
RQ2MilSCORE における Tier 1（単一ホップ）から Tier 3（クロスソース多ホップ）タスクでモデル能力はどう異なるか。
RQ3長文脈地理空間計画タスクを扱う際、最先端 VLM の一般的な失敗モードは何か。
RQ4ツール使用とチェーン・オブ・ソート prompting は MilSCORE タスクの grounding と精度を向上させるか。
RQ5より信頼性が高く、空間認識を持つ長文脈モデルの将来開発を導く基準となる性能は何か。

主な発見

Model	Tier 1	Tier 2	Tier 3	Total
GPT-4o	8 (40%)	12 (60%)	15 (75%)	35 (58.3%)
Claude Sonnet 4.5	6 (30%)	7 (35%)	0 (0%)	13 (21.7%)
Claude Haiku 4.5	6 (30%)	4 (20%)	6 (30%)	16 (26.7%)
Gemini 2.5 Flash	8 (40%)	9 (45%)	14 (70%)	31 (51.7%)}

GPT-4o は MilSCORE 60 問のセクション全体で総合精度が最も高く（35 問正解、58.3%）、特に Tier 3 で 75% 正解となる。
Claude Sonnet 4.5 と Gemini 2.5 Flash は Tier 3 の方が Tier 1/2 より強い性能を示すが、反復予算と長い推論ループにより制約を受ける。
Claude Haiku 4.5 は全体で 16 問正解（26.7%）で、Tier別の性能は不均一（Tier1 30%、Tier2 20%、Tier3 30%）である。
モデル間を通じて、Tier 3 のクロスソース多ホップ問題は Tier 1/2 より難しく、地図、GeoJSON、命令の統合の難しさを反映している。
現実的なシナリオレベルの軍事計画ベンチマークで、現行システムにはまだ大きな余地があることが明らかとなっている。
評価プロトコルは、ツール制約予算や長文脈データに対する実用的で grounded な推論の必要性といった実用的制約を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。