Skip to main content
QUICK REVIEW

[論文レビュー] Name Searching and Information Retrieval

Paul Thompson, Christopher Dozier|ArXiv.org|Jun 12, 1997
Image Retrieval and Classification Techniques参考文献 2被引用数 48
ひとこと要約

本稿では、個人名を他の語彙とは別に認識・インデックス化することで情報検索を向上させる手法を提案し、ニュースや法的文書など多様なドメインにおいて、正確な名前認識が検索パフォーマンスの向上に寄与することを示している。本研究は、名前を意識したインデックス化が順位付け検索システムにおける効果を顕著に向上させることを示している。

ABSTRACT

The main application of name searching has been name matching in a database of names. This paper discusses a different application: improving information retrieval through name recognition. It investigates name recognition accuracy, and the effect on retrieval performance of indexing and searching personal names differently from non-name terms in the context of ranked retrieval. The main conclusions are: that name recognition in text can be effective; that names occur frequently enough in a variety of domains, including those of legal documents and news databases, to make recognition worthwhile; and that retrieval performance can be improved using name searching.

研究の動機と目的

  • テキストにおける個人名の認識が情報検索パフォーマンスを向上させることを調査すること。
  • ニュースや法的テキストなど多様なドキュメントドメインにおける名前認識の正確性を評価すること。
  • 名前語彙とそれ以外の語彙を別々にインデックス化することで、検索効果性が向上するかどうかを特定すること。
  • 現実世界のテキストにおける名前の頻度と分布を踏まえた上で、名前認識の実用的価値を評価すること。

提案手法

  • 本研究では、非構造化テキストドキュメント内の個人名を同定するために名前エンティティ認識(NER)技術を用いる。
  • 名前は他の語彙とは別にインデックス化され、それぞれに異なるインデックス化および重み付け戦略が適用される。
  • 検索パフォーマンスは、標準的な順位付け検索指標を用いて評価され、名前を意識したインデックス化を施したシステムと施さないシステムの比較が行われる。
  • 名前認識の正確性は、標準的な評価指標(適合率、再現率、F1スコアなど)を用いて評価される。
  • 一般化可能性を評価するために、ニュース記事や法的文書を含む現実世界のコーパスを用いた実験が実施される。
  • システムのパフォーマンスを制御的に比較することで、名前認識が検索効果性に与える影響が分析される。

実験結果

リサーチクエスチョン

  • RQ1ニュースや法的文書など多様なテキストドメインにおいて、個人名を正確に認識できるか。
  • RQ2名前語彙を他の語彙とは別にインデックス化することで、順位付け検索システムにおける検索パフォーマンスが向上するか。
  • RQ3どのようなドキュメントタイプにおいて名前がどの程度頻出するか。その頻度は、名前処理を専用で行うのに十分であるか。
  • RQ4名前認識の正確性が、全体の検索効果性に与える影響は何か。
  • RQ5名前を意識したインデックス化戦略は、情報検索タスクにおける正確性と再現率をどの程度向上させるか。

主な発見

  • テキストにおける名前認識は、情報検索システムにおいて実用的に有用であるほど十分な正確性で達成可能である。
  • ニュースや法的文書などのドメインにおいて、個人名は十分な頻度で出現するため、専用の認識およびインデックス化処理を実施するに値する。
  • 名前語彙を非名詞語彙とは別にインデックス化することで、検索パフォーマンスに顕著な改善が見られる。
  • 検索パイプラインに名前認識を統合することで、順位付け検索タスクにおける正確性と再現率の両方が向上する。
  • 本研究は、ニュースや法的文書のように固有名が豊富に含まれるドメインにおいて、名前を意識したインデックス化が特に効果的であることを確認した。
  • 結果から、名前認識は実現可能であるだけでなく、全体の検索効果性に有意義な貢献を果たすことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。