[论文解读] Simulating H.P. Lovecraft horror literature with the ChatGPT large language model
该论文通过专门的提示在 GPT-4 上模拟 H.P. Lovecraft 的风格,并评估本科生是否能将生成文本与 Lovecraft 的文本区分开,结果显示他们无法可靠地区分两者。
In this paper, we present a novel approach to simulating H.P. Lovecraft's horror literature using the ChatGPT large language model, specifically the GPT-4 architecture. Our study aims to generate text that emulates Lovecraft's unique writing style and themes, while also examining the effectiveness of prompt engineering techniques in guiding the model's output. To achieve this, we curated a prompt containing several specialized literature references and employed advanced prompt engineering methods. We conducted an empirical evaluation of the generated text by administering a survey to a sample of undergraduate students. Utilizing statistical hypothesis testing, we assessed the students ability to distinguish between genuine Lovecraft works and those generated by our model. Our findings demonstrate that the participants were unable to reliably differentiate between the two, indicating the effectiveness of the GPT-4 model and our prompt engineering techniques in emulating Lovecraft's literary style. In addition to presenting the GPT model's capabilities, this paper provides a comprehensive description of its underlying architecture and offers a comparative analysis with related work that simulates other notable authors and philosophers, such as Dennett. By exploring the potential of large language models in the context of literary emulation, our study contributes to the body of research on the applications and limitations of these models in various creative domains.
研究动机与目标
- 向文献界解释基于 GPT 的 Lovecraft 风格写作模拟。
- 使用情境内提示与知识提示开发 Lovecraft 风格的提示。
- 通过实证评估本科生在实验条件下是否无法将生成文本与 Lovecraft 的写作区分开。
提出的方法
- 描述 GPT-4 架构与自回归生成基础。
- 构建一个受广泛文学参考影响的详细 Lovecraft 风格提示。
- 使用零-shot 和知识提示引导输出接近 Lovecraft 式特征。
- 生成一个 Lovecraft 风格的故事并通过 AI 和人工调查评估作者相似性。
- 对本科生进行调查,测试真· Lovecraft 与生成文本的可区分性。
实验结果
研究问题
- RQ1基于 GPT-4 的提示工程模型是否能产生对未接触 Lovecraft 的读者来说不可区分的文本?
- RQ2在模仿 Lovecraft 风格方面,哪些提示工程技巧和文体引用最有效?
- RQ3在实验条件下,人类受试者区分 Lovecraft 与 AI 生成 Lovecraft 风格文本的可靠性有多高?
主要发现
- 在专门提示指导下,GPT-4 能够接近地模仿 Lovecraft 的风格,作者和基于 AI 的评估都认为相似度分数约为 8.5/10。
- 在对 301 名无 Lovecraft 事先接触的本科生进行的调查中, Lovecraft 与 AI 文本的正确识别率未超过机会水平(两次比较的 p 值分别为 0.9945 和 0.7901)。
- 本科生无法基于报告结果可靠地区分真实 Lovecraft 作品与 GPT 生成的文本。
- 研究概述了一个分阶段的方法,包括提示构建、叙事生成,以及初步的人机评估,未来工作将进一步完善并进行专家评估。
- 作者讨论了需要专家驱动风格文档的局限性,并承认当前 AI 理解的约束及人类监督的作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。