[論文レビュー] Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing
論文は General Game Playing フレームワーク内の forward-simulation および rule-based reasoning タスクにおける四つの大規模言語モデルを評価し、ゲーム構造と隠蔽が性能にどう影響するかを分析し、共通の推論エラーと限界を特定する。1ステップ推論での明らかな進展を示す一方、長いホライズンやより複雑なタスクでは顕著な劣化がある。
This paper examines the reasoning capabilities of Large Language Models (LLMs) from a novel perspective, focusing on their ability to operate within formally specified, rule-governed environments. We evaluate four LLMs (Gemini 2.5 Pro and Flash variants, Llama 3.3 70B and GPT-OSS 120B) on a suite of forward-simulation tasks-including next / multistep state formulation, and legal action generation-across a diverse set of reasoning problems illustrated through General Game Playing (GGP) game instances. Beyond reporting instance-level performance, we characterize games based on 40 structural features and analyze correlations between these features and LLM performance. Furthermore, we investigate the effects of various game obfuscations to assess the role of linguistic semantics in game definitions and the impact of potential prior exposure of LLMs to specific games during training. The main results indicate that three of the evaluated models generally perform well across most experimental settings, with performance degradation observed as the evaluation horizon increases (i.e., with a higher number of game steps). Detailed case-based analysis of the LLM performance provides novel insights into common reasoning errors in the considered logic-based problem formulation, including hallucinated rules, redundant state facts, or syntactic errors. Overall, the paper reports clear progress in formal reasoning capabilities of contemporary models.
研究の動機と目的
- General Game Playing (GGP) フレームワークを LLM の象徴的推論を評価するベンチマークとして適用する。
- 四つの現代的な LLM を forward-simulation と rule-interpretation タスクで多様なゲームに渡って評価する。
- ゲーム構造、構成的複雑さ、および意味的グラウンディングが推論精度とどのように相関するかを分析する。
- 意味的隠蔽が LLM 推論に与える影響を調査し、象徴的能力と語彙的事前知識を分離する。
- 論理ベースの推論ベンチマークにおけるLLMの共通の誤りを特定する。
提案手法
- GDL ベースのゲーム記述を用いて four tasks を提示する: 次状態生成、法的行動生成、マルチステップ状態生成、マルチステップ行動-状態生成。
- 4モデル(Gemini 2.5 Pro、Gemini 2.5 Flash、Llama 3.3 70B、GPT-OSS 120B)を35のGGPゲームで評価する。
- 出力を GDL ファクトの集合として表現し、ジャッカード類似度と厳密成功指標 (%S) で測定する。
- 元の意味的に意味ある記述と、隠蔽変種(プレースホルダー用語、辞書語、ランダム文字列)を比較して意味的グラウンディングを評価する。
- 結果をホライズンごとに分析し、共通の失敗モード(誤魔化された規則、余計な事実、制約違反)の定性的エラー分析を行う。
- ゲーム構造的特徴(規則深さ、次規則の数など)とモデル性能との相関分析を行う。

実験結果
リサーチクエスチョン
- RQ1LLMs は外部ソルバーなしで正式に指定されたゲームの象徴的動的性を信頼できるようにシミュレートできるか。
- RQ2問題の構造と構成的深さが、ワンステップおよびマルチステップのタスクにおける LLM 推論精度にどのように影響するか。
- RQ3意味的グラウンディングと表層的言語手掛かりが GGP タスクにおける LLM 推論に与える影響は何か。
- RQ4論理ベースの正解生成とホライズンの長さに応じた共通の失敗モードは何か。
- RQ5より大きい/より専門的なモデル(例:Gemini 変種)は、隠蔽および非隠蔽の記述で堅牢な性能を示すか。
主な発見
- Gemini 2.5 Pro は一般にタスク全体で最高の平均性能を達成するが、評価ホライズンが長くなるにつれて著しく劣化する。
- 次状態生成は最も簡単なタスクであり、強いモデルの平均ジャカード指数は 0.8 を超え、Gemini 2.5 Pro は 34/35 ゲームで後継状態を完全に正しく生成し、%S は 0.85 以上のケースが多い。
- 法的行動生成は難しく、ジャカード指数が高くても厳密成功率 (%S) が低下することが多く、完全かつ正確な法的行動セットの生成が難しいことを示す。
- マルチステップ状態生成ははるかに難しく、Gemini 2.5 Pro は平均 JI ≈ 0.865、%S ≈ 0.734 を達成する一方、他モデルはより顕著に低下し、ステップごとの誤差伝播を示す。
- マルチステップ行動-状態生成は最も要求度が高い。Gemini 2.5 Pro でさえ性能が低下(平均 JI ≈ 0.808、%S ≈ 0.653)、Llama 3.3 70B は低結果。
- 隠蔽はモデル全体の性能を低下させ、辞書語やプレースホルダー語よりもランダム文字列の隠蔽のほうが相対的に耐性が高いことが多く、表層言語の変更に対しても象徴的推論が頑健である可能性を示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。