[论文解读] Image Inspired Poetry Generation in XiaoIce
本文提出了一种新颖的图像到诗歌生成系统,通过提取图像衍生的关键词(对象与情感),利用人写诗歌的关联进行扩展,并采用分层RNN生成连贯且富有情感共鸣的诗句,将视觉内容转化为艺术性的现代汉语诗歌。该方法在想象力、情感冲击力和艺术质量方面显著优于图像字幕和现有诗歌基线模型,自2017年以来已在生产环境中生成超过1200万首诗歌。
Vision is a common source of inspiration for poetry. The objects and the sentimental imprints that one perceives from an image may lead to various feelings depending on the reader. In this paper, we present a system of poetry generation from images to mimic the process. Given an image, we first extract a few keywords representing objects and sentiments perceived from the image. These keywords are then expanded to related ones based on their associations in human written poems. Finally, verses are generated gradually from the keywords using recurrent neural networks trained on existing poems. Our approach is evaluated by human assessors and compared to other generation baselines. The results show that our method can generate poems that are more artistic than the baseline methods. This is one of the few attempts to generate poetry from images. By deploying our proposed approach, XiaoIce has already generated more than 12 million poems for users since its release in July 2017. A book of its poems has been published by Cheers Publishing, which claimed that the book is the first-ever poetry collection written by an AI in human history.
研究动机与目标
- 开发一种能够基于视觉内容生成艺术性现代汉语诗歌的系统,模仿人类对图像的诗意反应。
- 通过利用人类写作文本中的关联,扩展图像衍生关键词,提升诗歌的多样性与想象力。
- 通过分层循环神经网络架构,确保生成诗歌的高流畅性与连贯性。
- 通过人工评估对比基线,评估系统的艺术质量,重点关注情感深度与创造力。
- 在真实AI产品(XiaoIce)中部署并扩展该系统,展示其实际可行性与用户参与度。
提出的方法
- 通过计算机视觉与情感分析处理图像输入,提取核心对象与情感。
- 利用大规模人类写作文本语料中的统计关联,对提取的关键词进行过滤与扩展。
- 采用分层循环神经网络逐句生成诗歌,保持句间与整体结构的连贯性。
- 实时运行流畅度检查器,若检测到低质量输出则触发重新生成。
- 集成图像相关性验证模块,确保生成的诗歌在语义上与输入图像保持一致。
- 该流程在大规模现代汉语诗歌数据集上进行训练,并通过人工评估反馈进行微调。
实验结果
研究问题
- RQ1AI系统能否生成比图像字幕更具想象力与情感共鸣的现代汉语诗歌?
- RQ2如何有效扩展图像衍生关键词,以增强诗歌的多样性和创造力?
- RQ3分层RNN模型在开放式、非结构化的现代诗歌生成中,能在多大程度上保持连贯性与流畅性?
- RQ4与传统图像字幕及现有诗歌生成系统相比,图像到诗歌生成在艺术质量上表现如何?
- RQ5能否实现基于图像生成诗歌的系统在大规模场景下实现高用户参与度与艺术影响力?
主要发现
- 所提方法在想象力、情感冲击力(触动人心)与整体震撼力方面显著优于图像2字幕与CTRIP基线,分别获得78.3%、74.1%与71.2%的投票支持。
- 人工评估者认为本系统生成的诗歌更具想象力与感染力,而CTRIP生成的诗歌虽流畅但上下文相关性较低。
- 尽管相关性低于图像2字幕,本系统生成的诗歌在艺术质量与情感共鸣方面始终获得更高评分。
- 自2017年7月以来,通过XiaoIce在生产环境中已生成超过1200万首诗歌,出版诗集《阳光 Misses Windows》——人类历史上首部AI创作的诗集。
- 关键词扩展策略显著提升了诗歌的多样性与情感深度,使系统能够从视觉刺激中唤起孤独或希望等情感。
- 结合实时流畅度检查的分层RNN显著提升了句子质量与连贯性,减少了生成诗句中的逻辑混乱或表达生硬现象。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。