QUICK REVIEW

[论文解读] HappyDB: A Corpus of 100,000 Crowdsourced Happy Moments

Akari Asai, Sara Evensen|arXiv (Cornell University)|Jan 23, 2018

Sentiment Analysis and Opinion Mining参考文献 11被引用 32

一句话总结

HappyDB 是一个公开发布的语料库，包含通过自我报告方式在24小时或3个月反思期内收集的10万条众包的幸福时刻。该论文呈现了一个语言多样性丰富的数据集，附带活动和参与角色标签，表明标准NLP技术在处理细微情绪表达方面存在困难，凸显了在情感计算和积极心理学应用中需要更深层次的上下文理解。

ABSTRACT

The science of happiness is an area of positive psychology concerned with understanding what behaviors make people happy in a sustainable fashion. Recently, there has been interest in developing technologies that help incorporate the findings of the science of happiness into users' daily lives by steering them towards behaviors that increase happiness. With the goal of building technology that can understand how people express their happy moments in text, we crowd-sourced HappyDB, a corpus of 100,000 happy moments that we make publicly available. This paper describes HappyDB and its properties, and outlines several important NLP problems that can be studied with the help of the corpus. We also apply several state-of-the-art analysis techniques to analyze HappyDB. Our results demonstrate the need for deeper NLP techniques to be developed which makes HappyDB an exciting resource for follow-on research.

研究动机与目标

开发一个大规模、公开可用的语料库，涵盖以多样化语言形式表达的自然发生的幸福时刻。
研究使用NLP识别幸福文本描述中关键活动和参与者的挑战。
支持对自然语言中情绪表达、情感分析及幸福行为触发因素的研究。
支持开发能够通过个性化、基于行为的干预措施理解并促进可持续幸福的人工智能系统。

提出的方法

通过Amazon Mechanical Turk众包收集10万个幸福时刻，要求用户描述过去24小时或3个月内让他们感到幸福的事情。
通过共识标注清理数据，仅保留至少三名标注者一致同意的响应。
对1.5万个时刻的子集进行标注，包括活动类别（如：成就、情感联结、休闲）和参与者角色。
使用基于BERT的模型训练多分类文本分类器，并通过5折交叉验证评估性能。
发布完整语料库、标注结果和基线预测，以支持可复现性及进一步研究。
对24小时和3个月反思期进行对比分析，以研究幸福表达中的时间变化特征。

实验结果

研究问题

RQ1在简短的自然语言描述中，幸福表达的语言模式和语义特征是什么？
RQ2短期（24小时）和长期（3个月）反思期中，幸福时刻的频率和类型有何不同？
RQ3最先进的NLP模型在缺乏显式上下文的情况下，能在多大程度上准确分类幸福时刻的核心活动和参与者？
RQ4在众包自我报告中，最常见的幸福来源是什么？它们在人口统计或时间维度上如何变化？
RQ5该语料库能否支持开发基于自然语言输入推荐提升幸福感行为的系统？

主要发现

24小时反思期产生的与“休闲”、“运动”和“自然”相关的时刻显著多于3个月期，表明短期幸福常与即时感官或身体体验相关。
3个月反思期产生的“成就”和“情感联结”类时刻比例更高，表明长期幸福更紧密关联于个人成就和人际纽带。
分类器在“联结”类别上F1得分为89.4，在“情感联结”类别上为92.0，但在“享受当下”类别上仅为54.0，在“休闲”类别上为72.1，表明细微或抽象情绪状态更难准确分类。
高性能类别（如“情感联结”，F1=92.0）与低性能类别（如“享受当下”，F1=54.0）之间的性能差距表明，仅靠词频分布不足以捕捉细微的情绪差异。
两个反思期之间的类别分布存在统计显著差异（p < 10−5），除“联结”类别外，后者保持稳定。
真实标签和基线预测的发布使研究人员能够对情绪和活动识别模型进行基准测试和改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。