[论文解读] Chinese Poetry Generation with Planning based Neural Network
本文提出了一种两阶段神经网络框架用于中文诗歌生成,首先根据用户意图规划子主题,然后使用改进的RNN编码器-解码器模型按顺序生成诗句。该方法通过引入外部知识提升语义连贯性并处理现代概念,在人类评估中达到接近人类水平的质量,49.9%的机器生成诗歌被非专家无法与人类诗歌区分。
Chinese poetry generation is a very challenging task in natural language processing. In this paper, we propose a novel two-stage poetry generating method which first plans the sub-topics of the poem according to the user's writing intent, and then generates each line of the poem sequentially, using a modified recurrent neural network encoder-decoder framework. The proposed planning-based method can ensure that the generated poem is coherent and semantically consistent with the user's intent. A comprehensive evaluation with human judgments demonstrates that our proposed approach outperforms the state-of-the-art poetry generating methods and the poem quality is somehow comparable to human poets.
研究动机与目标
- 为解决现有神经诗歌生成模型中语义连贯性不足的问题,即后续诗句常偏离用户初始意图。
- 实现对现代或非传统主题(如“巴拉克·奥巴马”)的诗歌生成,传统模型因训练数据中词汇有限而无法处理此类主题。
- 通过在生成前显式将用户意图分解为结构化子主题,提升诗歌质量。
- 整合外部知识源(如百科全书)以弥合现代概念与古典诗歌语言之间的鸿沟。
- 开发一种能够生成语义连贯、韵律正确且主题一致的诗歌的框架,符合人类标准。
提出的方法
- 该方法采用两阶段流水线:首先,诗歌规划模型将用户的输入(关键词、句子或文档)分解为一系列子主题,每个子主题代表一句诗的主题元素。
- 利用外部知识源(如百科全书)生成每个子主题,将现代术语扩展为适合古典诗歌的表达(例如,“巴拉克·奥巴马” → “杰出”、“权力”)。
- 采用改进的RNN编码器-解码器模型进行生成,包含两个并行编码器:一个用于当前子主题,另一个用于先前生成的诗句。
- 解码器中的注意力机制同时关注子主题嵌入和前序诗句的隐藏状态,确保生成内容具有上下文感知性且与主题一致。
- 模型在包含严格平仄、押韵和结构规则的古典中文诗歌大规模语料上进行训练。
- 该框架支持多种诗体(如绝句)的生成,并可扩展至其他体裁或语言。
实验结果
研究问题
- RQ1与端到端的序列到序列模型相比,基于规划的方法是否能显著提升生成中文诗歌的语义连贯性?
- RQ2该模型在训练数据中未出现的现代或非传统主题(如“啤酒”、“辛丙”)上,其诗歌生成能力如何?
- RQ3外部知识源(如百科全书)在多大程度上能增强模型在古典诗歌形式中处理现代概念的能力?
- RQ4在人类评估中,机器生成诗歌的质量与人类写作的诗歌相比有多接近?
- RQ5在确保主题一致性的前提下,模型能否保持结构和声调约束(如押韵、平仄模式)?
主要发现
- 在人类评估中,49.9%的机器生成诗歌被非专家错误识别为人类所作,或无法与人类诗歌区分。
- 在专家评估中,仅有16.3%的评估者无法区分机器生成诗歌与人类诗歌,表明在质量感知上仍存在显著差距。
- 该模型成功在“啤酒”和“辛丙”等现代主题上生成了语义连贯的诗歌,其子主题源自外部知识(如“香气”、“春江”、“星辰”)。
- 基于规划的方法显著提升了语义一致性,因为每句诗都明确关联于源自用户意图的子主题。
- 采用双编码器的改进RNN编码器-解码器模型在自动评估和人类评估中均优于所有基线模型。
- 该方法在生成结构正确、韵律恰当的诗歌方面表现出强鲁棒性,即使在输入现代或抽象概念时亦能保持良好表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。