[论文解读] From Once Upon a Time to Happily Ever After: Tracking Emotions in Novels and Fairy Tales
本文提出了一种基于情绪的文本分析框架,利用NRC情绪词典量化并可视化文学文本中情绪词的密度。结果表明,与小说相比,童话故事在情绪词密度分布上表现出显著更宽的范围,尤其是在喜悦、惊讶、期待和厌恶方面,从而为大规模语料库(如Google Books和Project Gutenberg)中的情感搜索与比较文学分析提供了新途径。
Today we have access to unprecedented amounts of literary texts. However, search still relies heavily on key words. In this paper, we show how sentiment analysis can be used in tandem with effective visualizations to quantify and track emotions in both individual books and across very large collections. We introduce the concept of emotion word density, and using the Brothers Grimm fairy tales as example, we show how collections of text can be organized for better search. Using the Google Books Corpus we show how to determine an entity's emotion associations from co-occurring words. Finally, we compare emotion words in fairy tales and novels, to show that fairy tales have a much wider range of emotion word densities than novels.
研究动机与目标
- 开发适用于大规模文学文本集合的情感与情绪分析系统。
- 实现在数字化文学中基于情绪的搜索功能,例如查找具有高悬念或喜悦情绪的文本。
- 通过量化情绪词密度指标,比较童话故事与小说之间的情绪动态。
- 可视化并分析不同体裁与作者之间的情绪分布,以获得社会与风格方面的洞察。
- 为Project Gutenberg创建基于情感的交互界面,通过情绪内容增强对文学文本的访问性。
提出的方法
- 本研究采用NRC情绪词典,这是一种通过众包构建的词-情绪关联词典,用于为文本中的词语分配情绪标签。
- 情绪词密度计算为每10,000个词中文本中带有情绪标签的词语数量,从而实现跨文本比较。
- 使用直方图和密度图等可视化手段,比较包括小说和童话在内的不同语料库中情绪分布的差异。
- 利用Google Books语料库,通过情绪词与实体的共现模式分析特定实体(如女性、种族、同性恋者)的情绪关联。
- 应用统计检验(p < 0.001)以评估小说与童话故事中文情绪词密度差异的显著性。
- 分析应用于两个语料库:CEN(292部小说,1881–1922年)和FTC(453则童话,19世纪作者如格林、安徒生、波特)。
实验结果
研究问题
- RQ1在分布形态与数值大小方面,童话故事与小说在情绪词密度上存在哪些差异?
- RQ2基于情绪的可视化是否能提升对大规模文学语料库的搜索与探索效率?
- RQ3在历史文本中,女性、种族或同性恋者等实体是否表现出独特的情绪词关联?
- RQ4在童话故事与小说中,不同情绪(如喜悦、恐惧、惊讶)的情绪词密度如何变化?
- RQ5童话故事与小说在情绪词密度的标准差上是否存在显著差异?
主要发现
- 童话故事在喜悦、惊讶、期待和厌恶等情绪词密度上显著高于小说(p < 0.001)。
- 童话故事在信任类情绪词密度上显著低于小说(p < 0.001)。
- 童话故事在全部八种基本情绪上的情绪词密度标准差远大于小说(p < 0.001),表明其情绪波动性更强。
- 每10,000个词中,小说平均包含1,670个负面词和2,602个正面词,而童话故事则包含1,543个负面词和2,808个正面词(p < 0.001)。
- 童话故事的情绪词密度分布并非双峰分布,而是趋近正态分布,且极端值更多,表明其情绪范围更广。
- 可视化结果显示,童话故事中具有极高或极低情绪词密度的文本数量多于小说,进一步证实其情绪变异范围更广。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。