Skip to main content
QUICK REVIEW

[論文レビュー] How to Evaluate your Question Answering System Every Day and Still Get Real Work Done

Eric Breck, John D. Burger|ArXiv.org|Apr 17, 2000
Topic Modeling参考文献 15被引用数 40
ひとこと要約

本稿では、質問応答における回答の正しさを、人間が作成した回答キーとの間でステム化された内容語の再現率を計算することで測定する自動評価システム Qaviar を提示する。この手法は人間の評価者と93〜95%の一致を示し、人間の順位付けと Kendall’s Tau 相関係数 0.920 を達成しており、開発中の日常的評価において強い信頼性を示している。

ABSTRACT

In this paper, we report on Qaviar, an experimental automated evaluation system for question answering applications. The goal of our research was to find an automatically calculated measure that correlates well with human judges' assessment of answer correctness in the context of question answering tasks. Qaviar judges the response by computing recall against the stemmed content words in the human-generated answer key. It counts the answer correct if it exceeds agiven recall threshold. We determined that the answer correctness predicted by Qaviar agreed with the human 93% to 95% of the time. 41 question-answering systems were ranked by both Qaviar and human assessors, and these rankings correlated with a Kendall's Tau measure of 0.920, compared to a correlation of 0.956 between human assessors on the same data.

研究の動機と目的

  • 質問応答における回答の正しさに関する人間の判断と高い相関を示す自動評価手法の開発。
  • 高価な人間によるアノテーションに依存せずに、反復的開発中の日常的かつ効率的なシステム評価を可能にする。
  • スケーラブルで繰り返し可能な指標を提供することで、QA システムの迅速なチューニングと設定を支援する。
  • 正しさ、有用性、理解度の観点から人間の評価を近似し、システム改善を導く方法を提供する。

提案手法

  • Qaviar は、システムの出力から得られるステム化された内容語の再現率を、人間が作成した回答キーと照合して計算する。
  • システムの出力と回答キーの両方に対してステミングとストップワードの除去を適用して正規化する。
  • 再現率が事前に定義されたしきい値(例:50%または75%)を超える場合、回答は正しいとマークされる。
  • 二値分類の手法を用い、再現率がしきい値を超える場合は「正しい」と判定し、そうでない場合は「誤り」と判定する。
  • 標準化された回答キーを用いて、TREC風の QA タスクでシステムを評価する。
  • 開発サイクルにおける日常的使用を想定し、シンプルで高速かつスケーラブルな手法として設計されている。

実験結果

リサーチクエスチョン

  • RQ1語のオーバーラップと再現率に基づく自動評価指標は、QA システムにおける人間の回答正しさ判断と強く相関するか?
  • RQ2ステム化された内容語の再現率は、人間が評価した回答の正しさをどれほど正確に予測できるか?
  • RQ3Qaviar のシステム順位付けは、人間によるシステム性能順位付けとどの程度相関するか?
  • RQ4このような自動評価システムは、評価の正確性を損なうことなく、日常的で反復的な開発を可能にするか?
  • RQ5Qaviar の性能は、一貫性と信頼性の観点から人間のアセッサーと比較してどうか?

主な発見

  • Qaviar が予測する回答の正しさは、人間の判断と93%から95%の割合で一致した。
  • Qaviar の順位付けと人間の順位付けとの間の Kendall’s Tau 相関係数は 0.920 であった。
  • この相関は、同じデータに対して人間アセッサー間で観測された 0.956 の相関に非常に近い。
  • このシステムは、開発サイクルにおける日常的使用において高い信頼性を示した。
  • Qaviar は、迅速で繰り返し可能かつ正確な評価手法を提供することで、反復的システム改善を効果的に支援した。
  • 人間によるアノテーションが現実的でない場合に特に、人間評価のスケーラブルな代替手段としての可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。