[論文レビュー] NoReGeo: Non-Reasoning Geometry Benchmark
NoReGeoは25カテゴリにまたがる2,500項目のジオメトリ ベンチマークを提供し、LLMとVLMが Reasoning や algebraic computation に頼らず native な幾何理解を持つかを検証。現モデルと人間の幾何直感とのギャップを明らかにする。
We present NoReGeo, a novel benchmark designed to evaluate the intrinsic geometric understanding of large language models (LLMs) without relying on reasoning or algebraic computation. Unlike existing benchmarks that primarily assess models' proficiency in reasoning-based geometry-where solutions are derived using algebraic methods-NoReGeo focuses on evaluating whether LLMs can inherently encode spatial relationships and recognize geometric properties directly. Our benchmark comprises 2,500 trivial geometric problems spanning 25 categories, each carefully crafted to be solvable purely through native geometric understanding, assuming known object locations. We assess a range of state-of-the-art models on NoReGeo, including frontier models like GPT-4, observing that even the most advanced systems achieve an overall maximum of 65% accuracy in binary classification tasks. Further, our ablation experiments demonstrate that such geometric understanding does not emerge through fine-tuning alone, indicating that effective training for geometric comprehension requires a specialized approach from the outset. Our findings highlight a significant gap in current LLMs' ability to natively grasp geometric concepts, providing a foundation for future research toward models with true geometric cognition.
研究の動機と目的
- 空間集約AIアプリケーションのコア能力として native な幾何理解を動機付け・形式化する。
- 直感的な幾何だけで解ける2,500項目を含む25ジオメトリカテゴリの横断モーダル ベンチマーク NoReGeo を導入する。
- 45以上の最先端LLM・VLMを評価し、幾何理解のギャップを測定する。
- 視覚エンコーダに幾何知識が潜在的に存在し、標準的なLLM訓練では出現しないことを示す。
- 真の幾何認知を持つモデルの開発と今後の研究の指針となる示唆を強調する。
提案手法
- 本ベンチマークは、定理や多段推論を必要とせず、点の位置から容易に解ける2,500問のジオメトリ問題で構成される。
- 各アイテムはテキストのみとペアの図解形式(点線画像と全画像)のクロスモーダル評価で利用可能。
- 評価は多項選択肢の正確さと、数値解答での±0.5のソフト正確さを用い、連鎖推論を防ぐため厳密なJSON形式出力を適用。
- 視覚エンコーダ(例:CLIP-ViT-B/32)での線形プロービング実験により、幾何が埋め込み表現としてどのように表現されているかを評価。
- 視覚言語モデルは、テキストのみと全画像入力の両方で評価され、跨モーダルの幾何理解を測定。
- 固定シード、温度0.6、最大2048トークンの出力を用い、最終回答を強制する構造化出力プロンプトを用いた統制評価パイプライン。

実験結果
リサーチクエスチョン
- RQ1LLMとVLMは代数的推論に依存せず native な幾何理解を示すか。
- RQ2テキスト対点線対全画像のマルチモーダル入力が、モデル間の幾何タスク性能にどう影響するか。
- RQ3幾何能力は視覚エンコーダに潜在し、線形プロービングで検出可能か、ファインチューニングはこの能力にどう影響するか。
- RQ4モーダリティを跨ぐ初等幾何タスク(分類、数値、安定性の問題)における現モデルの長所短所は何か。
主な発見
- 全視覚文脈は多くのタスクでVLMの性能を一貫して向上させ、テキストのみや点線画像入力よりも大きな改善を示す。
- いくつかのモデルは全画像で特定のタスクで人間に近い性能に達するが、全体として多くの項目で人間レベルには及ばない。
- ファインチューニングだけでは幾何能力を付与できず、凍結された視覚エンコーダに対する線形プロービングでほぼ完璧に解けることが示され、埋め込みに潜在的な幾何手掛かりが存在することが示唆される。
- モデルとタスク間で大きなばらつきがあり、標準偏差が大きいことはカテゴリ内の難易度が不均一であることを示唆する。
- 線形プロービングは一部の幾何スキルのタスク横断転移を示すが、全体として NoReGeo は言語訓練だけで幾何手掛かりへアクセスするのは難しい。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。