QUICK REVIEW

[論文レビュー] Applying Reliability Metrics to Co-Reference Annotation

Rebecca J. Passonneau|arXiv (Cornell University)|Jan 1, 1997

Natural Language Processing Techniques参考文献 6被引用数 18

ひとこと要約

本稿では、適合度の高いコアフレンスアノテーションの信頼性を評価するためのより信頼性の高い指標としてCohenのKappaを提案する。これは、再現率と適合率を連関表に適応することで、偶然の一致による誤差が生じる可能性があるという点を示しており、特にゴールドスタンダードのアノテーションが存在しない状況では、これらの標準的指標が誤解を招く可能性があることを明らかにしている。主な貢献は、ゴールドスタンダードが存在しない場合にKappaを代替指標として採用することの有効性を確立することにある。

ABSTRACT

Studies of the contextual and linguistic factors that constrain discourse phenomena such as reference are coming to depend increasingly on annotated language corpora. In preparing the corpora, it is important to evaluate the reliability of the annotation, but methods for doing so have not been readily available.In this report, I present a method for computing reliability of coreference annotation. First I review a method for applying the information retrieval metrics of recall and precision to coreference annotation proposed by Marc Vilain and his collaborators. I show how this method makes it possible to construct contingency tables for computing Cohen's Kappa, a familiar reliability metric. By comparing recall and precision to reliability on the same data sets, I also show that recall and precision can be misleadingly high. Because Kappa factors out chance agreement among coders, it is a preferable measure for developing annotated corpora where no pre-existing target annotation exists.

研究の動機と目的

言語コーパスにおけるコアフレンスアノテーション品質を評価するための信頼性の高い手法の不足に対処すること。
再現率や適合率といった従来の情報検索指標が、アノテーション信頼性を測定するために十分であるかどうかを評価すること。
ゴールドスタンダードが存在しない場合に、偶然の一致が再現率と適合率を誇張し、誤解を招く要因となることの実証。
ゴールドスタンダードのアノテーションが存在しない状況で、CohenのKappaをコアフレンスアノテーションの信頼性指標としてより適切なものとすることの確立。
コアフレンスアノテーションから連関表を構築し、Kappaを計算するための実用的手法の提供。

提案手法

Marc Vilainらの再現率・適合率フレームワークをコアフレンスアノテーションに適応させ、正しいおよび予測されたコアフレンスリンクを定義すること。
コーダー間の合意と不一致に基づいて、連関表（真正陽性、偽陽性、偽陰性、真陰性）を構築すること。
連関表を用いて、アノテーター間の偶然の一致を補正するCohenのKappaを計算すること。
実際のコアフレンスアノテーションデータにKappa統計量を適用し、再現率と適合率との信頼性を比較すること。
同じデータセット上でKappa値と再現率・適合率を対比することで、手法の妥当性を検証すること。
Kappaが再現率や適合率のみに依存するよりも、より正確なインターアノテーター信頼性の評価を可能にすることの実証。

実験結果

リサーチクエスチョン

RQ1再現率と適合率は、コアフレンスアノテーション品質の信頼できる指標として機能するか？
RQ2偶然の一致が、コアフレンスアノテーションにおいて再現率と適合率をどの程度誇張するか？
RQ3CohenのKappaは、コアフレンスアノテーションにおいて再現率と適合率よりもより適切な信頼性指標であるか？
RQ4コアフレンスアノテーションからどのようにして連関表を構築し、Kappaを計算するか？
RQ5ゴールドスタンダードのアノテーションが存在しない状況で、Kappaは信頼性のより正確な評価を提供するか？

主な発見

アノテーター間の偶然の一致の影響により、再現率と適合率は、アノテーション品質が低い場合でさえも誤って高い値を示す可能性がある。
CohenのKappaは偶然の一致を効果的に補正し、インターアノテーター信頼性のより正確な測定を可能にする。
本手法により、ゴールドスタンダードが存在しない場合でも、コアフレンスアノテーションから連関表を構築し、Kappaを計算することが可能になる。
Kappaは、事前に存在するターゲットアノテーションが存在しない状況で、より好ましい信頼性指標であることが示された。
再現率や適合率に比べて、Kappaはより慎重で信頼性の高いコアフレンスアノテーション品質の評価を可能にする。
提案手法は、ディス course アノテーションプロジェクトにおけるアノテーション信頼性の評価のための実用的で信頼性の高いフレームワークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。