[论文解读] SQUINKY! A Corpus of Sentence-level Formality, Informativeness, and Implicature
本论文介绍了 SQUINKY!,这是一个包含 7,032 个句子的大规模语料库,由 Amazon Mechanical Turk 上的人工标注者在 1–7 的李克特量表上对正式程度、信息量和隐含意义进行标注。研究显示,正式程度和信息量的标注具有较强的标注者间一致性,揭示了不同文体中风格变异的特定模式,并为自动预测句子层面语用特征奠定了基础。
We introduce a corpus of 7,032 sentences rated by human annotators for formality, informativeness, and implicature on a 1-7 scale. The corpus was annotated using Amazon Mechanical Turk. Reliability in the obtained judgments was examined by comparing mean ratings across two MTurk experiments, and correlation with pilot annotations (on sentence formality) conducted in a more controlled setting. Despite the subjectivity and inherent difficulty of the annotation task, correlations between mean ratings were quite encouraging, especially on formality and informativeness. We further explored correlation between the three linguistic variables, genre-wise variation of ratings and correlations within genres, compatibility with automatic stylistic scoring, and sentential make-up of a document in terms of style. To date, our corpus is the largest sentence-level annotated corpus released for formality, informativeness, and implicature.
研究动机与目标
- 创建一个大规模、句子级别的语料库,对正式程度、信息量和隐含意义进行标注,以支持计算语用学和风格变异的研究。
- 通过 Mechanical Turk 对这三种语用维度的人工标注可靠性进行评估,并在受控环境中与试点标注进行对比验证。
- 分析不同文体在正式程度、信息量和隐含意义上的差异,并研究这些特征在文档内句子位置上的变化模式。
- 探讨三种标注维度与其他风格变量之间的相关性,并评估其与自动风格评分方法的兼容性。
- 为未来自动预测句子层面正式程度和信息量的模型奠定基础,并提高隐含意义标注的可靠性。
提出的方法
- 通过 Amazon Mechanical Turk 上的人工标注者在 1–7 的量表上对 7,032 个句子的正式程度、信息量和隐含意义进行评分。
- 进行了两轮独立的标注,通过平均评分之间的相关性分析来评估标注者间的一致性。
- 利用来自受控环境(Lahiri 和 Lu,2011)的试点标注来验证 Mechanical Turk 的评分,尤其针对正式程度。
- 对新闻、博客和论坛三类文体进行了文体层面的分析,以比较各类文体的平均评分和趋势。
- 根据句子在文档中的位置,将句子划分为十个百分位组,以分析正式程度、信息量和隐含意义从开头到结尾的变化。
- 计算了三种标注变量与五种其他风格特征(如 F-score、CF-score、词级正式程度)之间的相关性,以评估与现有度量指标的兼容性。
实验结果
研究问题
- RQ1在 1–7 的李克特量表上,通过众包评分方式在句子层面对正式程度、信息量和隐含意义进行可靠标注的程度如何?
- RQ2正式程度、信息量和隐含意义在新闻、博客和论坛等不同文体之间有何差异?
- RQ3在文档内部(如开头、中间、结尾),正式程度、信息量和隐含意义的分布模式是怎样的?
- RQ4人工标注的评分与现有的自动风格度量指标(如 F-score、CF-score 和词级正式程度评分)之间的相关性如何?
- RQ5该语料库能否支持自动预测句子层面正式程度和信息量的模型开发?在隐含意义标注方面仍存在哪些挑战?
主要发现
- 正式程度和信息量的标注者间一致性较强,两轮独立的 Mechanical Turk 标注之间具有高度相关性,表明人类对这些维度的判断具有可靠性。
- 与受控环境中试点标注的相关性令人鼓舞,尤其在正式程度方面,验证了 Mechanical Turk 方法的有效性,尽管其本身存在主观性。
- 新闻文章的正式程度和信息量平均值最高,其次是博客,然后是论坛;在新闻文章中,正式程度和信息量随时间推移而下降。
- 博客句子的正式程度和信息量呈现出 U 型趋势,中间位置达到峰值,向末尾逐渐下降,表明其具有独特的修辞结构。
- 论坛句子在整个文本中保持较低且稳定的正式程度和信息量水平,仅有轻微波动,表明其风格稳定且非正式、信息量低。
- 隐含意义评分在句子位置上无明显趋势,且一致性最低,表明在该语用维度上人工标注的一致性面临重大挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。