[论文解读] Can ChatGPT Really Understand Modern Chinese Poetry?
本文提出 ECUMP 框架,用以评估 ChatGPT 对现代中国诗歌的理解,在 48 首诗中与原诗人意图的对齐度为 73%,在诗性方面表现较弱。
ChatGPT has demonstrated remarkable capabilities on both poetry generation and translation, yet its ability to truly understand poetry remains unexplored. Previous poetry-related work merely analyzed experimental outcomes without addressing fundamental issues of comprehension. This paper introduces a comprehensive framework for evaluating ChatGPT's understanding of modern poetry. We collaborated with professional poets to evaluate ChatGPT's interpretation of modern Chinese poems by different poets along multiple dimensions. Evaluation results show that ChatGPT's interpretations align with the original poets' intents in over 73% of the cases. However, its understanding in certain dimensions, particularly in capturing poeticity, proved to be less satisfactory. These findings highlight the effectiveness and necessity of our proposed framework. This study not only evaluates ChatGPT's ability to understand modern poetry but also establishes a solid foundation for future research on LLMs and their application to poetry-related tasks.
研究动机与目标
- 识别理解现代诗歌所必需的五个维度(内容、表达方式、思想与情感、现代性、诗性),并获得专家意见。
- 开发提示设计,以引出 ChatGPT 对诗歌的多维度解读。
- 将 ChatGPT 的解读与专业诗人评估进行对比,以建立真实基准。
- 提供评估框架和证据,为未来基于大模型的诗歌任务与研究提供指引。
提出的方法
- 基于诗学理论和专家意见,界定五个理解维度。
- 设计并优化 ChatGPT 提示,使其在上述维度(内容、表达方式、思想与情感、现代性、诗性)上解读现代诗歌。
- 从六位专业诗人处汇集 48 首诗(Com-Poetry 与 Spe-Poetry)用于解读任务。
- 使用固定生成设置的 GPT-4(gpt-4-0125)在各维度上产出解读。
- 从原诗人处获得对四个维度的 0–100 分评估,以及对诗性的 0/50/100,并进行并行的 LLM 评估。

实验结果
研究问题
- RQ1ChatGPT 是否真正按照预定义维度理解现代中国诗歌?
- RQ2在不同诗型(Com-Poetry 与 Spe-Poetry)中,ChatGPT 的解读与原诗人意图的对齐程度如何?
- RQ3哪些维度对 ChatGPT 来说最具挑战性(如诗性 vs 意象)?
主要发现
| Cont | Lang | Imag | Rhet | Rhyt | Defa | Thou | Mode |
|---|---|---|---|---|---|---|---|
| 80.33 | 79.05 | 81.18 | 77.83 | 76.15 | 79.40 | 78.80 | 79.88 |
| 77.50 | 73.75 | 81.25 | 88.75 | 82.50 | 77.50 | 78.75 | 82.50 |
- GPT-4 的解读在各维度上与原诗人意图的对齐率超过 73%。
- 对 Com-Poetry 的意象理解最强,平均分为 81.18。
- 对 Spe-Poetry,强项包括修辞技巧(88.75)、节奏感(82.50)、现代性(82.50)。
- 诗性是 GPT-4 最弱的维度,最具诗性的一句识别较差(表格显示多处 0/50/100)。
- 人类诗人评估相较自动化的 LLM 评估在理解诗歌方面具有更高的可靠性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。