QUICK REVIEW

[논문 리뷰] Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing

Świechowski, Maciej, Adam Żychowski|arXiv (Cornell University)|2026. 02. 22.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 General Game Playing 프레임워크 내에서 네 개의 대형 언어 모델을 순방향 시뮬레이션과 규칙 기반 추론 태스크에 대해 평가하고, 게임 구조와 은폐가 성능에 미치는 영향 분석 및 일반적인 추론 오류와 한계를 식별합니다. 한 단계 추론에서 명확한 진전을 보였으나 더 긴 시점 범위의 태스크와 더 복잡한 태스크에서 상당한 저하가 관찰됩니다.

ABSTRACT

This paper examines the reasoning capabilities of Large Language Models (LLMs) from a novel perspective, focusing on their ability to operate within formally specified, rule-governed environments. We evaluate four LLMs (Gemini 2.5 Pro and Flash variants, Llama 3.3 70B and GPT-OSS 120B) on a suite of forward-simulation tasks-including next / multistep state formulation, and legal action generation-across a diverse set of reasoning problems illustrated through General Game Playing (GGP) game instances. Beyond reporting instance-level performance, we characterize games based on 40 structural features and analyze correlations between these features and LLM performance. Furthermore, we investigate the effects of various game obfuscations to assess the role of linguistic semantics in game definitions and the impact of potential prior exposure of LLMs to specific games during training. The main results indicate that three of the evaluated models generally perform well across most experimental settings, with performance degradation observed as the evaluation horizon increases (i.e., with a higher number of game steps). Detailed case-based analysis of the LLM performance provides novel insights into common reasoning errors in the considered logic-based problem formulation, including hallucinated rules, redundant state facts, or syntactic errors. Overall, the paper reports clear progress in formal reasoning capabilities of contemporary models.

연구 동기 및 목표

General Game Playing (GGP) 프레임워크를 LLM 기호적 추론 평가의 벤치마크로 적응한다.
다양한 게임에서 순방향 시뮬레이션 및 규칙 해석 태스크에 대해 네 가지 현대 LLM을 평가한다.
게임 구조, 구성적 복잡성, 그리고 의미적 접지(semantic grounding)가 추론 정확도와 어떻게 상관되는지 분석한다.
의미적 은폐가 LLM 추론에 미치는 영향을 탐구하여 기호적 능력과 언어적 사전 지식의 구분을 시도한다.
논리 기반 추론 벤치마크에서의 일반적인 LLM 실수들을 식별한다.

제안 방법

GDL 기반의 게임 설명을 사용하여 네 가지 태스크를 제시한다: 다음 상태 생성, 합법적 행동 생성, 다단계 상태 생성, 다단계 행동-상태 생성.
네 가지 모델(Gemini 2.5 Pro, Gemini 2.5 Flash, Llama 3.3 70B, GPT-OSS 120B)을 35개의 GGP 게임에서 평가한다.
출력을 GDL 사실 집합으로 표현하고 카카드 지수(Jaccard index)와 엄격 성공 지표(%S)를 사용해 측정한다.
원래의 의미 있는 서술과 은폐된 변형(대체 용어, 사전 단어, 임의 문자열)을 비교하여 의미적 접지를 평가한다.
결과를 시점(horizons)별로 분석하고 질적 오류 분석을 수행하여 일반적인 실패 모드(환각된 규칙, 불필요한 사실, 제약 위반)를 식별한다.
게임의 구조적 특징(예: 규칙 깊이, 다음 규칙의 수)과 모델 성능 간의 상관 관계를 분석한다.

실험 결과

연구 질문

RQ1형식적으로 명시된 게임에서 외부 솔버 없이 LLM이 기호적 역학을 안정적으로 시뮬레이션할 수 있는가?
RQ2문제 구조와 구성적 깊이가 한 단계 및 다단계 태스크에서 LLM 추론 정확도에 어떻게 영향을 미치는가?
RQ3GGP 태스크에서 의미적 접지 versus 표면적 언어적 단서가 LLM 추론에 미치는 영향은 무엇인가?
RQ4다음 시뮬레이션 및 논리 기반 추론에서 LLM이 보이는 일반적인 실패 모드는 무엇이며 수 horizon 길이에 따라 어떻게 확장되는가?
RQ5더 큰 모델 또는 더 특화된 모델(Gemini 계열 등)이 은폐/비은폐 서술에서 견고한 성능을 보이는가?

주요 결과

Gemini 2.5 Pro가 일반적으로 태스크 전반에서 가장 높은 평균 성능을 달성하지만 평가 horizon이 증가함에 따라 상당한 저하가 나타난다.
다음 상태 생성은 가장 쉬운 태스크로, 강한 모델의 평균 Jaccard 지수는 0.8을 초과하며 Gemini 2.5 Pro는 35개 게임 중 34개에서 %S ≥ 0.85로 평균적으로 후속 상태를 완전히 정확하게 달성한다.
합법적 행동 생성은 더 어렵다; Jaccard 지수가 높게 남아도 엄격한 성공률(%S)이 자주 감소하는 경향이 있어, 완전하고 정확한 법적 행동 세트를 산출하는 데 어려움이 있음을 시사한다.
다단계 상태 생성은 훨씬 더 도전적이며; Gemini 2.5 Pro는 평균 JI 약 0.865, %S 약 0.734를 달성하는 반면, 다른 모델은 더 크게 하락하며 단계 간 오차 전파가 나타난다.
다단계 행동-상태 생성은 가장 까다롭고; Gemini 2.5 Pro조차도 성능이 감소(평균 JI 약 0.808, %S 약 0.653), Llama 3.3 70B는 성능이 저조하다.
은폐는 모델 전반의 성능을 감소시키며, 임의 문자열 은폐가 사전 단어 또는 대체 용어 변형보다 상대적으로 더 높은 회복력을 보이는 경향이 있어, 표면 언어 변화에 대한 기호적 추론이 견고할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.