QUICK REVIEW

[論文レビュー] TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning

Daixian Liu, Jiayi Kuang|arXiv (Cornell University)|Jan 23, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

TangramPuzzle は、Tangram Construction Expressions (TCE) を用いた厳密で機械検証可能な評価を通じて、マルチモーダル LLM の構成的空間推論を評価する幾何学ベースのベンチマークを導入します。Outline Prediction と End-to-End Tangram Solution Generation のタスクを横断して評価します。

ABSTRACT

Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual recognition and semantic understanding. Nevertheless, their ability to perform precise compositional spatial reasoning remains largely unexplored. Existing benchmarks often involve relatively simple tasks and rely on semantic approximations or coarse relative positioning, while their evaluation metrics are typically limited and lack rigorous mathematical formulations. To bridge this gap, we introduce TangramPuzzle, a geometry-grounded benchmark designed to evaluate compositional spatial reasoning through the lens of the classic Tangram game. We propose the Tangram Construction Expression (TCE), a symbolic geometric framework that grounds tangram assemblies in exact, machine-verifiable coordinate specifications, to mitigate the ambiguity of visual approximation. We design two complementary tasks: Outline Prediction, which demands inferring global shapes from local components, and End-to-End Code Generation, which requires solving inverse geometric assembly problems. We conduct extensive evaluation experiments on advanced open-source and proprietary models, revealing an interesting insight: MLLMs tend to prioritize matching the target silhouette while neglecting geometric constraints, leading to distortions or deformations of the pieces.

研究の動機と目的

粗い意味関係を超える精密空間推論の評価をMLLMに対して動機付ける。
タングラム構成を正確な座標に基づいて基礎付ける形式的幾何表現（TCE）を提供する。
識別的シルエット推論（Outline Prediction）と構成的逆組み立て（End-to-End Tangram Solution Generation）の両方でMLLMを評価する。
正確な幾何学の下で剛性、重なり禁止、トポロジ的制約を尊重する際のモデルの限界を評価する。

提案手法

Tangram Construction Expression (TCE) を、ピースの種類、頂点座標、辺、変換、ターゲットのアウトラインをエンコードする記号的でLaTeXベースの幾何スキーマとして導入する。
二つのタスクを定義する：Outline Prediction（正確なTCE入力から選択肢の中から正しいシルエットを選ぶ）と End-to-End Tangram Solution Generation（ターゲットアウトラインを正確に埋める完全な TCE JSON を出力する）。
構文、剛性、非重複、連結性を検証する制約ベースの検証器を適用し、次にシルエット忠実度のためにIoUとHausdorff距離を測定する。
データを多段階パイプラインで構築する（KiloGram からの生のタングラムパターン、スナップショットによる注釈、正確な表現への記号的正規化、人間による検証）。
標準化されたプロンプトとAPI呼び出しを用いてオープンソースおよび商用MLLMを広範に評価し、幾何制約の充足性と視覚忠実度の失敗モードを分析する。

実験結果

リサーチクエスチョン

RQ1MLLMs は正確な幾何学的制約の下で、局所的なタングラム成分からグローバルな形状を正確に推測できるか？
RQ2MLLMs は与えられたターゲットアウトラインを完全に満たす幾何学的制約適合のタングラム組み立てを生成できるか？
RQ3モデルは厳密な幾何学的制約を遵守するよりも、シルエットの一致を優先する傾向があるか？
RQ4文脈内の例とテキスト幾何へ依存する影響は、タスクの目的に対してどのように影響するか？
RQ5幾何データの視覚中心 grounding とテキスト駆動 grounding の違いは何か？

主な発見

MLLMはタスク間でシルエット精度と幾何制約の遵守に大きなばらつきを示す。
高いシルエット忠実度は必ずしも制約充足を保証しない。多くのモデルが視覚を改善するためにピースを歪めたり重なりを作成する。
Gemini3-Pro は高い制約充足と強いシルエット忠実度で堅牢な幾何推論を示す。
トップモデルは高いIoUや視覚的妥当性を達成しても幾何学的に有効な解を生成できない場合がある（いくつかのケースで0%の成功）。
文脈依存学習は解析済み回答の形状品質を向上させる可能性がある一方、構文エラーを増加させるため、象徴的正確さと幾何理解のトレードオフが生じる。
テキスト幾何は多くのモデルの grounding を助けるが、テキスト座標を削除すると性能が低下する。ただし Gemini3-Pro は依然として強い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。