QUICK REVIEW

[論文レビュー] Can Large Language Models Play Text Games Well? Current State-of-the-Art and Open Questions

Chen Feng Tsai, Xiaochen Zhou|arXiv (Cornell University)|Apr 6, 2023

Topic Modeling被引用数 9

ひとこと要約

要約: 本論文は ChatGPT や他の LLM がテキストベースのゲーム Zork のようなゲームをどれだけ上手くプレイできるかを調査し、ChatGPT が専門エージェントに劣り、学習済みの世界モデルとゴール推論を欠き、人間主導のプロンプト作成からは恩恵を受けるが最先端には遠いことを明らかにしている。

ABSTRACT

Large language models (LLMs) such as ChatGPT and GPT-4 have recently demonstrated their remarkable abilities of communicating with human users. In this technical report, we take an initiative to investigate their capacities of playing text games, in which a player has to understand the environment and respond to situations by having dialogues with the game world. Our experiments show that ChatGPT performs competitively compared to all the existing systems but still exhibits a low level of intelligence. Precisely, ChatGPT can not construct the world model by playing the game or even reading the game manual; it may fail to leverage the world knowledge that it already has; it cannot infer the goal of each step as the game progresses. Our results open up new research questions at the intersection of artificial intelligence, machine learning, and natural language processing.

研究の動機と目的

ゲームを世界モデル化とゴール推論といった AI 能力を評価するミクロコスムとして用いる動機づけ。
ChatGPT がゲームの攻略情報を読み、テキストゲームと相互作用することで世界モデルを学べるかを評価する。
Zork における ChatGPT のナビゲーション、SLAM に類似する推論、ゴール推論能力を評価する。
標準化プロンプトの下で、最先端のテキストゲームエージェントと ChatGPT をベンチマークする。

提案手法

Jericho ベースの Zork I 実装を用い、人間が介在する ChatGPT のプレイを実施する。
現在のゲーム状態を ChatGPT に提示し、合法な行動を要求し、選択した行動をゲームにフィードバックする。
正しい攻略情報を提示し、場所/目的地の結果を問うことで世界モデルの学習を検証する。
ChatGPT に対し、場所のペアから目的地を予測させることで SLAM に類似するナビゲーションを評価する。
ゲームの進行と観察から次の高レベルのゴールを推定させることでゴール推論を評価する。
ChatGPT の性能を、DRRN、KG-A2C、RC-DQN などの SOTA テキストゲームエージェントおよび訓練を受けていない NAIL ベースラインと比較する。

Figure 1: We drew this map after reading the first 70 steps of the correct walkthrough.

実験結果

リサーチクエスチョン

RQ1テキストゲームをプレイしながら、ChatGPT のような LLM が利用可能な世界モデルを構築または推定できるか。
RQ2個別の手順だけでなく、行動を導く高レベルのゴールを推定できるか。
RQ3環境構造を理解する必要があるナビゲーションとマッピング（SLAM 的推論）タスクにおける ChatGPT の性能は、訓練済みエージェントと比較してどうか。
RQ4標準化されたプロンプトの下で Zork を評価した場合、ChatGPT と SOTA テキストゲームエージェントの相対的な性能はどうか。

主な発見

Model	Score
ChatGPT	10.0
ChatGPT (+ prev action)	15.0
ChatGPT with intervention	35.0
+ prev action	40.0
NAIL	10.3
DRRN	32.6
KG-A2C	38.8
RC-DQN	34.0

ChatGPT は一段階の目的地質問で全体正解率 55.4%、見たことあるで 75.0%、未見で 29.1%；二段階正解率は全体 31.3%、見たことあるで 50.0%、未見で 10.0%、全体は 42.5%。
ChatGPT の SLAM 系問は一段階正解率 57.7%、二段階正解率 22.8%、全体 39.4%、見た map では未見 map より良好。
低レベルの行動を高レベルの戦略的ゴールとして推測する傾向があり、70 ステップ中意味のあるゴール推論を行ったのは 17 件のみ。
訓練なしの Zork での評価は 10.0、前の行動 memory ありで 15.0、介入と memory を用いた拡張プロトコルでは 40.0 と高いが、SOTA エージェントには依然と劣る。
Zork 上で訓練済みの SOTA 系（DRRN、KG-A2C、RC-DQN）と比較して ChatGPT は劣る。表中で報告された SOTA スコアの最高は KG-A2C で 38.8、RC-DQN で 34.0、DRRN で 32.6、ChatGPT は改良プロトコル下で最大 40.0 に達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。