Skip to main content
QUICK REVIEW

[論文レビュー] Document distance for the automated expansion of relevance judgements for information retrieval evaluation

Diego Mollá, Iman Amini|arXiv (Cornell University)|Jan 1, 2015
Information Retrieval and Search Behavior被引用数 2
ひとこと要約

本稿では、意味的に類似する文書を特定することで、主に肯定的評価のみが存在する限られた関連性評価を自動的に拡張する文書距離に基づく手法を提案する。OHSUMEDおよびTREC-8で評価された結果、初期の評価が少ない状況でも、検索評価の信頼性が顕著に向上することが示された。

ABSTRACT

This paper reports the use of a document distance-based approach to automatically expand the number of available relevance judgements when these are limited and reduced to only positive judgements. This may happen, for example, when the only available judgements are extracted from a list of references in a published review paper. We compare the results on two document sets: OHSUMED, based on medical research publications, and TREC-8, based on news feeds. We show that evaluations based on these expanded relevance judgements are more reliable than those using only the initially available judgements, especially when the number of available judgements is very limited.

研究の動機と目的

  • 情報検索評価における関連性評価の不足、特に肯定的評価しか入手できない状況の課題に対処すること。
  • 利用可能な関連性評価数が極めて少ない状況において、検索システムの評価の信頼性を向上させること。
  • 文書距離技術が、追加の意味のある関連性評価を効果的に生成できるかどうかを検討すること。
  • 拡張された評価が、検索評価指標の頑健性および正確性に与える影響を評価すること。

提案手法

  • 既知の関連性評価をもつ文書に類似する文書を特定するために、文書距離メトリクスを活用すること。
  • 文書間の類似度スコアを用いて、以前未ラベルだった文書の新たな関連性評価を推定すること。
  • 肯定的評価が与えられた文書と意味的空間上で近い文書に関連性を割り当てることで、初期の関連性評価セットを拡張すること。
  • 2つのベンチマークデータセット(OHSUMED(医学研究)およびTREC-8(ニュースフィード))にこの手法を適用すること。
  • 元の評価のみを用いたベースライン評価と比較して、拡張された評価の検索性能指標を評価すること。
  • 標準的なIR評価指標を用いて、拡張された評価セットと元の評価セットに基づく結果の信頼性を評価すること。

実験結果

リサーチクエスチョン

  • RQ1スモールセットの初期肯定的評価から、文書距離技術が追加の関連性評価を効果的に推定できるか?
  • RQ2初期のスパarsな評価と比較して、拡張された関連性評価を用いることで、検索評価の信頼性はどの程度向上するか?
  • RQ3医療系およびニュースベースのコーパスといった異なる文書コーパスにおいて、拡張評価によるパフォーマンス向上の程度はどのように変化するか?
  • RQ4非常に限られた関連性データに基づく評価に内在するバイアスおよび不安定性を、この手法はどの程度軽減できるか?

主な発見

  • 拡張された関連性評価に基づく評価は、初期に入手可能な評価のみを用いたものよりも信頼性が高かった。
  • 初期の関連性評価数が極めて少ない状況で、評価の信頼性向上が最も顕著に観察された。
  • 本手法は意味的類似性を活用して関連性評価を効果的に拡張し、評価セットの代表性を向上させた。
  • 本手法はOHSUMEDおよびTREC-8の両方で一貫した利点を示し、多様な文書コーパスへの広範な適用可能性を示した。
  • 文書距離の活用により、手動アノテーションを要せず、意味的に意味のある関連性データの拡張が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。