[论文解读] MarioGPT: Open-Ended Text2Level Generation through Large Language Models
MarioGPT 针对文本提示的可玩马里奥关卡对 GPT-2 进行微调,并将其与 novelty search 结合,以生成多样化、开放式内容,约 88% 的可玩性。
Procedural Content Generation (PCG) is a technique to generate complex and diverse environments in an automated way. However, while generating content with PCG methods is often straightforward, generating meaningful content that reflects specific intentions and constraints remains challenging. Furthermore, many PCG algorithms lack the ability to generate content in an open-ended manner. Recently, Large Language Models (LLMs) have shown to be incredibly effective in many diverse domains. These trained LLMs can be fine-tuned, re-using information and accelerating training for new tasks. Here, we introduce MarioGPT, a fine-tuned GPT2 model trained to generate tile-based game levels, in our case Super Mario Bros levels. MarioGPT can not only generate diverse levels, but can be text-prompted for controllable level generation, addressing one of the key challenges of current PCG techniques. As far as we know, MarioGPT is the first text-to-level model and combined with novelty search it enables the generation of diverse levels with varying play-style dynamics (i.e. player paths) and the open-ended discovery of an increasingly diverse range of content. Code available at https://github.com/shyamsn97/mario-gpt.
研究动机与目标
- 受到在游戏中实现可控、多样化的程序化内容生成(PCG)需求的驱动。
- 提出一个使用微调语言模型的文本提示条件关卡生成器。
- 通过整合以 novelty-search 为驱动的进化,实现开放式内容发现。
- 展示生成关卡的可玩性和对提示的可控性。
提出的方法
- 在 Mario level tokens 上对 distilled GPT-2 (DistilGPT-2) 进行微调,以预测跨关卡序列的下一个标记。
- 将关卡表示为通过字节对编码(BPE)标记化的瓷砖字符串,并在50列窗口中采样。
- 通过一个冻结的 BART 编码器将提示信息引入,其平均隐藏状态为 MarioGPT 提供交叉注意力。
- 用 MarioBert 模型对关卡边界进行修补,以在变异后保持路径一致性。
- 将 MarioGPT 与 novelty-search(NS-MarioGPT)结合,以变异精英并促进所预测玩家路径的行为多样性。
- 评估瓷砖预测准确性、使用 A* 向导的关卡可玩性和提示可控性;评估记忆化和多样性。
实验结果
研究问题
- RQ1一个经过自然语言提示条件化的微调语言模型是否能够生成可玩、可控的超级马里奥兄弟关卡?
- RQ2将 novelty-search 循环与基于 LLM 的变异算子结合,是否能生成多样化、开放式的关卡内容?
- RQ3提示描述与生成的关卡属性(管道、敌人、方块、海拔)之间的映射在多大程度上成立?
- RQ4模型预测路径与代理轨迹之间的可玩性与路径相似性如何?
- RQ5模型在多大程度上记忆训练数据,采样策略在保持质量的同时能否缓解记忆化?
主要发现
- 88.4% 的 MarioGPT 生成的关卡可被标准的 A* 代理玩通。
- 在验证集上使用 MarioGPT 时,非空气瓷砖的瓷砖预测准确率达到 93%。
- 以提示为条件的生成在大多数情况下与提示对齐(例如管道 81%,方块 92%,海拔 76%)。
- 结合 novelty-search 的 MarioGPT 能实现跨关卡和路径存档的开放式、多样化关卡生成。
- 通过 NS-MarioGPT 生成的关卡覆盖了行为空间中越来越大的区域,约在 300 间关卡后填充了 78% 的路径坐标。
- 记忆化动态存在;较高的采样温度增加多样性但降低质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。