[论文解读] Inducing Domain-Specific Sentiment Lexicons from Unlabeled Corpora
本文提出 SentProp,一种结合领域特定词嵌入与标签传播的框架,可从少量种子词和无标签语料中生成准确且具备置信度量化的情感词典。该方法性能达到当前最先进水平,与人工校对的词典相当,并揭示了在150年中超过5%的英语情感词发生了极性反转,且在250个Reddit社区间存在显著的情感差异。
A word's sentiment depends on the domain in which it is used. Computational social science research thus requires sentiment lexicons that are specific to the domains being studied. We combine domain-specific word embeddings with a label propagation framework to induce accurate domain-specific sentiment lexicons using small sets of seed words, achieving state-of-the-art performance competitive with approaches that rely on hand-curated resources. Using our framework we perform two large-scale empirical studies to quantify the extent to which sentiment varies across time and between communities. We induce and release historical sentiment lexicons for 150 years of English and community-specific sentiment lexicons for 250 online communities from the social media forum Reddit. The historical lexicons show that more than 5% of sentiment-bearing (non-neutral) English words completely switched polarity during the last 150 years, and the community-specific lexicons highlight how sentiment varies drastically between different communities.
研究动机与目标
- 为计算社会科学中领域特定情感词典的迫切需求提供解决方案,因为通用词典因情感的上下文依赖性而引入偏差。
- 开发一种可扩展、低资源的方法,用于生成准确的情感词典,无需依赖昂贵的人工标注或领域特定的监督。
- 量化时间(历史文本)和社会群体(在线论坛)中的情感差异,揭示词语情感的大规模演变。
- 为研究人员提供一种有原则的、具备不确定性感知的框架,用于特定领域的情感分析。
- 发布一个全面的工具包(SocialSent),包含预训练的词典和基准实现,供社区使用。
提出的方法
- SentProp 将高质量的领域特定词嵌入与标签传播算法相结合,将情感分数从少量种子词传播至整个词汇表。
- 该方法采用基于图的表示方式,其中词语为节点,边代表由词嵌入推导出的语义相似性。
- 情感分数通过标签传播公式进行迭代传播,直至收敛至稳定的情感值。
- 引入一种新颖的自助抽样框架,用于为每个情感分数估计置信区间,量化生成词典中的不确定性。
- 该框架应用于两个大规模研究:对150年英语历史文本(COHA)的情感分析,以及对250个Reddit子版块的社区特定情感诱导。
- 该方法使用类别质量归一化来确定极性阈值(正面/负面/中性),从而实现对完整极性反转的检测。
实验结果
研究问题
- RQ1词语的情感极性在时间上如何变化?在150年英语中,有多少比例的词语经历了完全的极性反转?
- RQ2情感在不同在线社区中的差异程度如何?社区特定词典与通用情感词典有何不同?
- RQ3结合词嵌入与标签传播的半监督框架,能否在无需人工校对资源的情况下实现情感词典生成的最先进性能?
- RQ4如何以有原则的方式量化特定领域词典中情感分数的不确定性?
- RQ5哪些历史和社会因素促成了情感词的语义演变,如情感提升(amelioration)和情感贬损(pejoration)?
主要发现
- 在1850–1880年与1970–2000年间,超过5%的情感词(非中性)完全改变了极性,表明存在大规模历时性情感变化。
- 词语 'lean' 经历了情感提升,从表示虚弱的负面含义,转变为与肌肉感和健身相关的正面含义。
- 词语 'pathetic' 经历了情感贬损,强化了与无能和虚弱相关的负面含义,其原本更中性或正面的‘激情’含义逐渐减弱。
- 像 'sorry' 和 'worldly' 这类词语也经历了语义弱化和重新分析,从负面含义转变为中性或正面含义。
- 对250个Reddit子版块的社区特定情感词典分析揭示了显著的情感差异,例如 'soft' 在体育社区与玩具动物社区中情感相反。
- SentProp 在仅使用少量种子词和中等规模语料(约10^7个词)的情况下,实现了与人工校对词典相媲美的最先进性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。