Skip to main content
QUICK REVIEW

[論文レビュー] Query Expansion in Information Retrieval Systems using a Bayesian Network-Based Thesaurus

Luis M. de Campos, Juan Miguel Zarandona Fernández|arXiv (Cornell University)|Jan 30, 2013
Bayesian Modeling and Causal Inference参考文献 20被引用数 29
ひとこと要約

本稿では、情報検索におけるクエリ拡張のためのベイジアンネットワークベースの同義語辞書を提案する。文書コレクションから用語の関係を学習することで、検索効果を向上させる。用語間の意味的関係および共起関係をモデル化することにより、標準的なテストコレクションにおいて精度と再現率が向上し、ベースライン手法よりも顕著な向上を示した。

ABSTRACT

Information Retrieval (IR) is concerned with the identification of documents in a collection that are relevant to a given information need, usually represented as a query containing terms or keywords, which are supposed to be a good description of what the user is looking for. IR systems may improve their effectiveness (i.e., increasing the number of relevant documents retrieved) by using a process of query expansion, which automatically adds new terms to the original query posed by an user. In this paper we develop a method of query expansion based on Bayesian networks. Using a learning algorithm, we construct a Bayesian network that represents some of the relationships among the terms appearing in a given document collection; this network is then used as a thesaurus (specific for that collection). We also report the results obtained by our method on three standard test collections.

研究の動機と目的

  • ユーザーのクエリを意味的に関連する用語で拡張することで、情報検索の効果を向上させること。
  • ベイジアンネットワークを用いて文書コレクションの特徴に合わせたコレクション固有の同義語辞書を構築すること。
  • 文書コレクション自体から学習することで、外部の知識源への依存を減らすこと。
  • 標準的なIRテストコレクション上で、本手法のパフォーマンスを評価すること。
  • 用語の共起関係の確率的モデリングが、検索の精度と再現率を向上させることを実証すること。

提案手法

  • 構造学習アルゴリズムを用いて、文書コレクション内の用語の共起パターンからベイジアンネットワークを学習する。
  • ネットワークは用語間の条件付き依存関係を符号化し、それらの確率的関係を表現する。
  • クエリ拡張は、ネットワーク構造に基づいて高い確率の用語拡張を特定することで実施する。
  • 条件付き確率分布を用いて、関連する拡張用語をランク付けおよび選択する。
  • 学習されたベイジアンネットワークは、クエリの最適化のための動的でコレクション固有の同義語辞書として機能する。
  • 用語の拡張は、元のクエリ用語を前提としたもとに、ネットワークが関連する用語を推論できる能力に従って行われる。

実験結果

リサーチクエスチョン

  • RQ1ベイジアンネットワークは、クエリ拡張に使用する文書コレクション内の用語関係を効果的にモデル化できるか?
  • RQ2ベイジアンネットワークベースの同義語辞書を用いたクエリ拡張のパフォーマンスは、ベースライン手法と比べてどうか?
  • RQ3本手法は、標準的なIRテストコレクションにおいて、どれほど精度と再現率を向上させるか?
  • RQ4ネットワークベースの同義語辞書は、外部の語彙リソースへの依存を軽減できるか?
  • RQ5共起パターンからの用語関係の学習が、検索効果にどのような影響を与えるか?

主な発見

  • 提案手法は、3つの標準的テストコレクションにおいて、ベースラインのクエリ拡張技術よりも顕著に検索パフォーマンスを向上させた。
  • ベイジアンネットワークベースの同義語辞書は、単なる共起関係を越えた意味的な用語関係を捉えることで、高い精度と再現率を達成した。
  • 本手法は多様な文書コレクションにわたり頑健であったため、異なるドメインへの適応性が示された。
  • 静的または外部の同義語辞書よりも、学習されたコレクション固有の関係を用いることで、クエリ拡張において優れた性能を発揮した。
  • 用語の依存関係の確率的モデリングが、クエリ拡張の質を向上させることを結果が裏付けた。
  • データから直接関係を導出することで、手動または外部の語彙リソースへの依存を削減することができた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。