Skip to main content
QUICK REVIEW

[論文レビュー] Proximity Full-Text Search with a Response Time Guarantee by Means of Additional Indexes with Multi-Component Keys

Alexander B. Veretennikov|arXiv (Cornell University)|Jan 1, 2018
Algorithms and Data Compression参考文献 14被引用数 2
ひとこと要約

本稿では、3要素キーインデックスを用いた近接全文検索アルゴリズムを提案し、特に頻出クエリ用語において応答時間を顕著に短縮する。最大距離を設定可能な範囲内で語の近接関係を事前インデックス化することで、従来の2要素インデックスと比較して、クエリ実行が最大94.7倍速くなる。全文検索ワークロードにおいて顕著なパフォーマンス向上を示している。

ABSTRACT

Full-text search engines are important tools for information retrieval. In a proximity full-text search, a document is relevant if it contains query terms near each other, especially if the query terms are frequently occurring words. For each word in the text, we use additional indexes to store information about nearby words at distances from the given word of less than or equal to MaxDistance, which is a parameter. We had shown that additional indexes with three-component keys can be used to improve the average query execution time up to 94.7 times if the queries consist of high-frequency used words. In this paper, we present a new search algorithm with even more performance gains. We also present results of search experiments, which show that three-component key indexes enable much faster searches in comparison with two-component key indexes.

研究の動機と目的

  • 頻出語の近接全文検索における応答時間を改善すること。
  • 高頻度語が近接して出現する場合に、従来の全文検索が抱えるパフォーマンスボトルネックを解消すること。
  • 指定された距離内にある語のペアを迅速に取得できるインデックス構造を設計すること。
  • 2要素アプローチと比較して、多要素キーインデックスがクエリ実行時間の短縮にどの程度有効であるかを評価すること。

提案手法

  • 語の近接関係を捉えるために、3要素キー(語, 距離, 近接語)を用いた追加インデックスを構築する。
  • 各語に対して、MaxDistance内にあるすべての近接語を保持し、クエリ処理時の効率的な検索を可能にする。
  • 3要素キー構造を用いて近接情報を事前計算・インデックス化することで、実行時計算を低減する。
  • 事前インデックス化された近接データを活用してクエリ実行を最適化し、関連ドキュメントを迅速に特定する。
  • 2要素キーインデックス(語, 近接語)との性能比較により、距離インデックス化の利点を明確にする。
  • 3要素インデックスを活用して、距離制約を満たすドキュメントを効率的に取得する検索アルゴリズムを実装する。

実験結果

リサーチクエスチョン

  • RQ13要素キーインデックスは、2要素インデックスと比較して近接全文検索における応答時間を短縮できるか?
  • RQ2クエリ用語の頻度が増加するにつれて、パフォーマンス向上はどのように変化するか?
  • RQ3提案されたインデックス構造を用いることで、クエリ実行時間にどの程度の最大スピードアップが達成できるか?
  • RQ4MaxDistanceパラメータは、インデックスサイズとクエリパフォーマンスにどのように影響するか?

主な発見

  • 提案された3要素キーインデックス構造により、頻出語を含むクエリの平均クエリ実行時間が最大94.7倍短縮された。
  • 特に頻出クエリ用語において、3要素キーインデックスは2要素キーインデックスを上回る検索速度を実現した。
  • パフォーマンス向上は、コーパス内で頻繁に出現する語同士が近接して出現する場合に顕著に現れた。
  • 設定可能なMaxDistance内での語の近接関係を事前計算・インデックス化することで、低遅延の近接検索が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。