Skip to main content
QUICK REVIEW

[論文レビュー] BISON: BM25-weighted Self-Attention Framework for Multi-Fields Document Search.

Xuan Shan, Chuanjie Liu|arXiv (Cornell University)|Jul 10, 2020
Topic Modeling参考文献 35被引用数 2
ひとこと要約

BISONは、多分野のWebドキュメント検索のための自己注意メカニズムに語彙的事前知識を統合するBM25重み付き自己注意フレームワークを提案する。BM25スコアを学習可能な注意重みとして適用し、ワード全体の重み共有を用いることで、意味的表現学習を向上させ、同等のモデル複雑度のBERTや他のモデルを上回る性能を発揮する。

ABSTRACT

Recent breakthrough in natural language processing has advanced the information retrieval from keyword match to semantic vector search. To map query and documents into semantic vectors, self-attention models are being widely used. However, typical self-attention models, like Transformer, lack prior knowledge to distinguish the importance of different tokens, which has been proved to play a critical role in information retrieval tasks. In addition to this, when applying WordPiece tokenization, a rare word may be split into several different tokens. How to translate word-level prior knowledge into WordPiece tokens becomes a new challenge for the semantic representation generation. Moreover, web documents usually have multiple fields. Due to the heterogeneity of different fields, simple combination is not a good choice. In this paper, We propose a novel BM25-weighted Self-Attention framework (BISON) for web document search. By leveraging BM25 as prior weights, BISON learns weighted attention scores jointly with query matrix Q and key matrix K. We also present an efficient whole word weight sharing solution to mitigate prior knowledge discrepancy between words and WordPiece tokens. Furthermore, BISON effectively combines multiple fields by placing different fields into different segments. We demonstrate BISON is more efficient to capture the topical and semantic representation both in query and document. Intrinsic evaluation and experiments conducted on public data sets reveal BISON to be a general framework for document ranking task. It outperforms BERT and other modern models while retaining the same model complexity with BERT.

研究の動機と目的

  • 標準の自己注意モデルに事前知識が欠如しているため、情報検索においてトークンの重要性を区別できないという問題に対処すること。
  • 意味的表現学習における語彙レベルの事前知識とサブワードレベルのトークン化(例:WordPiece)の間の不一致を解消すること。
  • 単純な連結を避け、異種のドキュメント分野(例:タイトル、本文)を効果的に統合することにより、分野固有の意味を保持すること。
  • モデル効率を維持しながら、クエリおよびドキュメントにおける意味的およびトピック的表現を向上させるフレームワークを開発すること。

提案手法

  • クエリ-キー相互作用の計算中にBM25スコアを学習可能な注意重みとして使用することで、BM25重み付き自己注意を導入する。
  • WordPieceトークン化によって生成されたサブワードトークンに語彙レベルの事前知識を効果的に伝達するため、ワード全体の重み共有機構を提案する。
  • 異なるドキュメント分野(例:タイトル、コンテンツ)を別々の注意セグメントに分割することで、分野固有の表現をモデル化する。
  • BM25事前知識を組み込みながら、注意重みとクエリ/キー行列を同時に学習することで、より良い関連性モデリングを実現するエンドツーエンド学習を可能にする。
  • 分野境界を保持し、分野に配慮した表現学習を可能にする多分野注意メカニズムを用いる。
  • 語彙的事前知識とサブワードに配慮した重み付けを組み込みつつ、BERTと同等のモデル複雑度を維持する。

実験結果

リサーチクエスチョン

  • RQ1BM25を事前重み付けメカニズムとして統合することで、自己注意モデルのドキュメント検索タスクにおける性能が向上するか?
  • RQ2WordPieceトークン化によって生成されたサブワードトークンに、語彙レベルの事前知識を効果的に伝達する方法は何か?
  • RQ3分野固有のセグメンテーションが、多分野ドキュメント表現およびランク付け性能に与える影響は何か?
  • RQ4軽量でBERTと同等のモデルが、語彙的事前知識と構造的な分野モデリングを組み込むことで、優れたパフォーマンスを達成できるか?

主な発見

  • BISONは、同等のモデル複雑度を維持しながら、公開のドキュメントランク付けデータセットにおいてBERTや他の最新モデルを上回る性能を発揮する。
  • BM25を学習可能な注意重みとして統合することで、モデルのトピック的および意味的関連性を捉える能力が顕著に向上する。
  • ワード全体の重み共有機構により、語とそのサブワード成分の間の事前知識の不一致が効果的に低減される。
  • 分野固有のセグメンテーションにより、ドキュメント分野の意味的多様性を保持することで、より優れた表現学習が実現される。
  • 内在的評価と下流の実験から、BISONがドキュメントランク付けの一般用途フレームワークとして有効であることが確認される。
  • パrameter数の増加や推論コストの上昇を伴わずに、ベンチマークデータセットで最先端のパフォーマンスを達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。