Skip to main content
QUICK REVIEW

[論文レビュー] Broccoli: Semantic Full-Text Search at your Fingertips

Hannah Bast, Florian Bäurle|arXiv (Cornell University)|Jul 11, 2012
Semantic Web and Ontologies参考文献 27被引用数 28
ひとこと要約

Broccoliは、木構造のクエリ言語を用いてキーワードベースのテキスト検索とオントロジーに基づく構造化クエリを統合する意味的フルテキスト検索エンジンである。文を意味的文脈に分解することで、高速かつインタラクティブな検索を可能にし、効率的なクエリ提案と処理を実現し、WikipediaおよびYAGOデータ上で優れた結果を達成しており、誤り訂正後のF1スコアは最大0.86に達する。

ABSTRACT

We present Broccoli, a fast and easy-to-use search engine for what we call semantic full-text search. Semantic full-text search combines the capabilities of standard full-text search and ontology search. The search operates on four kinds of objects: ordinary words (e.g., edible), classes (e.g., plants), instances (e.g., Broccoli), and relations (e.g., occurs-with or native-to). Queries are trees, where nodes are arbitrary bags of these objects, and arcs are relations. The user interface guides the user in incrementally constructing such trees by instant (search-as-you-type) suggestions of words, classes, instances, or relations that lead to good hits. Both standard full-text search and pure ontology search are included as special cases. In this paper, we describe the query language of Broccoli, the main idea behind a new kind of index that enables fast processing of queries from that language as well as fast query suggestion, the natural language processing required, and the user interface. We evaluated query times and result quality on the full version of the English Wikipedia (40 GB XML dump) combined with the YAGO ontology (26 million facts). We have implemented a fully functional prototype based on our ideas and provide a web application to reproduce our quality experiments. Both are accessible via http://broccoli.informatik.uni-freiburg.de/repro-corr/ .

研究の動機と目的

  • 従来のフルテキスト検索とオントロジー検索の限界を克服し、統合的かつインタラクティブな検索システムを構築すること。
  • クエリ言語を学習する必要なく、知的な文脈に依存した提案を通じて、ユーザーが段階的に複雑な意味的クエリを構築できるようにすること。
  • 意味的に整合性のある文の文脈内での語とエンティティの共起を正確に特定することで、結果の質を向上させること。
  • 高速なクエリ評価とリアルタイムのクエリ提案を可能にする、新規のインデキシングおよび処理パイプラインの開発。
  • 大規模コーパス(英語Wikipedia)と知識ベース(YAGO)を用いた評価を通じて、性能と結果の質の両面を示すこと。

提案手法

  • クエリ言語は、語、クラス、インスタンス、関係をノードとし、アークが関係を表す木構造のクエリに基づく。
  • 新規の文の文脈分解技術により、文が意味的に整合性のある部分(例:節、列挙)に分割され、共起性のチェックが関連する単位内でのみ行われる。
  • 特殊なインデックス構造により、木クエリの高速処理と、事前に計算された共起パターンを用いた効率的なクエリ提案が可能になる。
  • エンティティ認識と代名詞解決が、テキスト内の語をオントロジーのエンティティにリンクするために適用され、Wikipediaの構造に特化したヒューリスティクスが用いられる。
  • ハイブリッドアプローチを採用:キーワードの証拠にはフルテキスト検索、構造的 fact の検索にはオントロジー照会を用い、関連性と文脈に基づいて結果を統合する。
  • プロトタイプは実装され、再現性のため公開されており、文レベルおよび文脈レベルのメトリクスを用いたTREC 2009クエリを用いた評価が実施されている。

実験結果

リサーチクエスチョン

  • RQ1統合的でインタラクティブかつ使いやすい検索インターフェースは、フルテキスト検索とオントロジー検索を効果的に統合できるか?
  • RQ2距離や段落レベルのマッチングよりも、文レベルでの共起性をより正確にモデル化する方法は何か?
  • RQ3文脈分解は、意味的フルテキスト検索における結果の質をどの程度向上させるか?
  • RQ4エンティティ認識や構文解析などの不完全なNLPコンponentを用いる際に生じるパフォーマンスと品質のトレードオフは何か?
  • RQ5完全な文法解析を必要とせずに、実世界のデータで高い精度と再現率を達成できるか?

主な発見

  • オリジナルのTREC 2009文レベル評価ではF1スコアが0.37に達したが、正例とオントロジーの誤りを訂正した後は0.86に上昇した。
  • 正例に欠落したエンティティを追加した後、F1スコアは0.55に上昇し、オントロジーの不完全さが主な誤り要因であることが示された。
  • 文脈分解に起因する偽陽性および偽陰性(FP6+FN6)の数は少ないため、文脈分解手法の堅牢性が裏付けられた。
  • システムのクエリ処理はインタラクティブ利用に十分高速であり、リアルタイムの提案と低遅延応答時間を実現している。
  • YAGOからFreebaseに切り替えることで、特に「acted-in」などの関係について、カバレッジと結果の質が著しく向上する可能性がある。
  • エンティティ認識および代名詞解決に起因する誤りカテゴリ(FP4およびFN4)は、より高度なNLP技術の統合により低減可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。