Skip to main content
QUICK REVIEW

[论文解读] Assessing agreement on classification tasks: the kappa statistic

Jean Carletta|ArXiv.org|Feb 27, 1996
Speech and dialogue systems参考文献 14被引用 2,093
一句话总结

本文认为在话语与对话研究中使用的现有可靠性指标难以解释,并提出 kappa 统计量作为一个标准、可解释的编码者间一致性度量。

ABSTRACT

Currently, computational linguists and cognitive scientists working in the area of discourse and dialogue argue that their subjective judgments are reliable using several different statistics, none of which are easily interpretable or comparable to each other. Meanwhile, researchers in content analysis have already experienced the same difficulties and come up with a solution in the kappa statistic. We discuss what is wrong with reliability measures as they are currently used for discourse and dialogue work in computational linguistics and cognitive science, and argue that we would be better off as a field adopting techniques from content analysis.

研究动机与目标

  • 突出话语与对话研究中现有可靠性指标的不足。
  • 提出 kappa 统计量作为对机会一致性未经调整的度量的清晰、可解释的替代方案。
  • 倡导采用内容分析做法,以实现跨研究的可靠性结果的可比性。

提出的方法

  • 对话语与对话研究中常用的四种可靠性指标进行回顾与批评。
  • 引入 kappa 统计量及其作为对机会校正的一致性测量的解释。
  • 将 kappa 与其他指标进行比较,并讨论对比研究的含义。
  • 讨论专家与初学编码者的角色以及 kappa 如何处理这些情景。

实验结果

研究问题

  • RQ1用于话语与对话编码的现有可靠性指标有哪些局限?
  • RQ2kappa 统计量如何解决偶然一致性与可解释性在编码者可靠性中的问题?
  • RQ3在本领域应用 kappa 时,专家与天真/非专家编码者应如何对待?

主要发现

  • 现有的可靠性指标较难解释,且在跨研究间不可比。
  • Kappa 校正了偶然一致性,并在多个编码者之间产生一个单一、可比的可靠性度量。
  • 采用 kappa 能实现标准化诊断和跨研究的编码可靠性可比性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。