QUICK REVIEW

[논문 리뷰] Can Large Language Models Play Text Games Well? Current State-of-the-Art and Open Questions

Chen Feng Tsai, Xiaochen Zhou|arXiv (Cornell University)|2023. 04. 06.

Topic Modeling인용 수 9

한 줄 요약

본 논문은 ChatGPT 및 다른 대형언어모델(LLM)이 Zork와 같은 텍스트 기반 게임을 얼마나 잘 플레이하는지 탐구하고, ChatGPT가 특화된 에이전트보다 뒤처지고 학습된 월드 모델과 목표 추론이 부족하며, 인간의 지도형 프롬팅에서 이점을 얻지만 최첨단에 아직 미치지 못한다는 결론을 제시한다.

ABSTRACT

Large language models (LLMs) such as ChatGPT and GPT-4 have recently demonstrated their remarkable abilities of communicating with human users. In this technical report, we take an initiative to investigate their capacities of playing text games, in which a player has to understand the environment and respond to situations by having dialogues with the game world. Our experiments show that ChatGPT performs competitively compared to all the existing systems but still exhibits a low level of intelligence. Precisely, ChatGPT can not construct the world model by playing the game or even reading the game manual; it may fail to leverage the world knowledge that it already has; it cannot infer the goal of each step as the game progresses. Our results open up new research questions at the intersection of artificial intelligence, machine learning, and natural language processing.

연구 동기 및 목표

AI의 월드 모델링 및 목표 추론과 같은 능력을 평가하기 위한 미시적 사례로 게임을 활용하는 동기를 제시한다.
게임 공략집을 읽고 텍스트 게임과 상호작용함으로써 ChatGPT가 세계 모델을 학습할 수 있는지 평가한다.
Zork에서 ChatGPT의 내비게이션, SLAM 유사 추론 및 목표 추론 능력을 평가한다.
다양한 프롬프트 프로토콜 하에서 ChatGPT를 최첨단 텍스트 게임 에이전트와 벤치마킹한다.

제안 방법

Jericho 기반의 Zork I 구현을 사용하여 사람이 개입하는 ChatGPT가 게임을 플레이하도록 실행한다.
현재 게임 상태를 ChatGPT에 제공하고 합법적 행동을 요청한 뒤, 선택된 행동을 게임에 피드백한다.
정확한 공략집을 제시하고 위치/목적지 결과를 질의하여 세계 모델 학습 여부를 테스트한다.
위치 쌍에서 목적지를 예측하도록 요청하여 SLAM과 유사한 내비게이션을 평가한다.
게임 진행 및 관찰에 따라 다음 고수준 목표를 묻는 방식으로 목표 추론을 평가한다.
SOTA 텍스트 게임 에이전트(DRRN, KG-A2C, RC-DQN)와 비학습 NAIL 베이스라인과의 성능을 비교한다.

Figure 1: We drew this map after reading the first 70 steps of the correct walkthrough.

실험 결과

연구 질문

RQ1ChatGPT와 같은 LLM이 텍스트 게임을 하는 동안 활용 가능한 월드 모델을 구성하거나 추론할 수 있는가?
RQ2개별 수순 제안 이외에 행동을 이끄는 고수준 목표를 ChatGPT가 추론할 수 있는가?
RQ3환경 구조를 이해해야 하는 내비게이션 및 매핑 작업(SLAM 유사 추론)에서 학습된 에이전트와 비교해 ChatGPT의 성능은 어떤가?
RQ4표준 프롬프트로 Zork를 평가할 때 ChatGPT와 최첨단 텍스트 게임 에이전트의 상대 성능은 어떠한가?

주요 결과

모델	점수
ChatGPT	10.0
ChatGPT (+ prev action)	15.0
ChatGPT with intervention	35.0
+ prev action	40.0
NAIL	10.3
DRRN	32.6
KG-A2C	38.8
RC-DQN	34.0

ChatGPT는 한 단계 목적지 질문에서 전체 정확도 55.4%, 본 맵은 75.0%, 보지 못한 맵은 29.1%; 두 단계 정확도는 전체 31.3%, 본 맵 50.0%, 보지 못한 맵 10.0%; 전체 합계는 42.5%이다.
ChatGPT의 SLAM 질문은 한 단계 정확도 57.7%, 두 단계 22.8%, 전체 39.4%, 본 맵에서 미확인 맵보다 더 우수한 성능을 보인다.
ChatGPT는 고수준 전략적 목표보다는 저수준 행동을 목표로 추정하는 경향이 있으며, 70단계 중 의미 있는 목표 추론이 나온 경우는 17건에 불과하다.
훈련 없이 Zork를 평가했을 때 ChatGPT 점수는 10.0, 이전 행동 기억을 사용하면 15.0; 개입 및 기억을 활용한 확장 프로토콜에서 40.0으로 SOTA 에이전트보다 여전히 뒤처진다.
Zork에서 학습된 SOTA 시스템(DRRN, KG-A2C, RC-DQN)과 비교하면 ChatGPT의 성능은 저조하다; 표에서 보고된 최상 SOTA 점수는 KG-A2C 38.8, RC-DQN 34.0, DRRN 32.6이며, ChatGPT는 수정된 프로토콜에서 최대 40.0에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.