[论文解读] Intention-based Segmentation: Human Reliability and Correlation with Linguistic Cues
本文提出了一种基于意图的语篇分割框架,利用自发叙事中人类标注的转录文本,展示了较高的标注者间一致性(82%–92%的一致性)以及使用信息检索度量方法量化分割边界与语言线索(指称性名词短语、提示词和停顿)之间的相关性。研究证实,基于说话者意图的人工分割在统计上是可靠的,并为评估自动分割算法提供了基准。
Certain spans of utterances in a discourse, referred to here as segments, are widely assumed to form coherent units. Further, the segmental structure of discourse has been claimed to constrain and be constrained by many phenomena. However, there is weak consensus on the nature of segments and the criteria for recognizing or generating them. We present quantitative results of a two part study using a corpus of spontaneous, narrative monologues. The first part evaluates the statistical reliability of human segmentation of our corpus, where speaker intention is the segmentation criterion. We then use the subjects' segmentations to evaluate the correlation of discourse segmentation with three linguistic cues (referential noun phrases, cue words, and pauses), using information retrieval metrics.
研究动机与目标
- 评估在自发叙事转录文本中,以说话者意图作为标准的人工语篇分割的统计可靠性。
- 量化语篇分割边界与三种语言线索(指称性名词短语、提示词和停顿)之间的相关性。
- 通过使用人工标注的分割作为黄金标准,为自动语篇分割算法提供基准。
- 探究语篇边界在感知显著性上是否呈梯度分布,基于标注者之间的一致性强度。
- 通过使自动分割算法与人工标注边界及语言线索对齐,提升其性能。
提出的方法
- 使用30段自发叙事独白的语料库,开展两部分研究。
- 招募人类受试者根据说话者意图的非正式概念对转录文本进行分割,将每个片段视为一个语义连贯单元。
- 使用加权F1分数和显著性检验(p < 0.001 至 p < 0.0001)计算标注者间的一致性。
- 开发了三种自动分割算法:基于指称性名词短语的(RA)、基于提示词的(CA)和基于停顿的(PA),利用语言特征作为触发信号。
- 使用标准信息检索度量(召回率、精确率、误报率和错误率)评估算法性能,并与人工标注边界进行对比。
- 通过按标注者识别边界的数量(1至5名)对边界进行分组,分析边界强度,评估感知显著性对一致性的影响力。
实验结果
研究问题
- RQ1在自发叙事中,基于说话者意图的人工语篇分割有多可靠?
- RQ2指称性名词短语、提示词和停顿等语言线索与人工标注的语篇边界之间的相关性有多大?
- RQ3基于单一语言线索的自动分割算法在识别语篇边界方面与人工表现相比如何?
- RQ4语篇边界的感知显著性是否呈梯度分布,如标注者之间的一致性水平存在差异所示?
- RQ5通过整合语言线索或优化特征检测(如停顿类型、名词短语特征)能否提升自动分割的性能?
主要发现
- 基于说话者意图进行语篇分割的人工标注者间一致性在82%至92%之间,所有叙事的平均值为85%,且具有统计显著性(p < 0.001 至 p < 0.0001)。
- 指称性名词短语算法(RA)的召回率与人工表现相当,但精确率显著较低(0.55 vs. 0.75),误报率(0.45 vs. 0.25)和错误率(0.45 vs. 0.25)均更高。
- 提示词(CA)和停顿(PA)算法表现出相对较高的召回率,但精确率极低,误报率和错误率远高于人工表现。
- 随着边界强度提高(即更多标注者认同某一边界),召回率上升而精确率下降,表明语篇边界在感知显著性上存在差异。
- 通过引入语法角色特征增强RA算法,使召回率和精确率均提高约10%,显示出算法改进的潜力。
- 结果验证了多数标注者一致同意的边界在统计上是可靠的,但未验证仅由一两名受试者提出的边界。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。