Skip to main content
QUICK REVIEW

[論文レビュー] The Web Is Your Oyster - Knowledge-Intensive NLP against a Very Large Web Corpus

Aleksandra Piktus, Fabio Petroni|arXiv (Cornell University)|Dec 18, 2021
Topic Modeling被引用数 24
ひとこと要約

本論文は、Common Crawlスナップショットから抽出された、大規模で非構造的なSphereウェブコーパスを、知識集約的NLP(KI-NLP)タスクにおける知識源として使用することを提案している。伝統的なWikipediaベースの検索に代わるか補足するものであり、ノイズが多く構造のないにもかかわらず、複数のKI-NLPタスクで最先端の性能を達成しており、特にオープンドメイン質問応答および常識的推論において、Wikipediaベースのモデルを上回っている。また、再現可能性を高め、特許権を有する検索エンジンへの依存を減らすために、公開インデックスとインfrastrucureを提供している。

ABSTRACT

In order to address increasing demands of real-world applications, the research for knowledge-intensive NLP (KI-NLP) should advance by capturing the challenges of a truly open-domain environment: web-scale knowledge, lack of structure, inconsistent quality and noise. To this end, we propose a new setup for evaluating existing knowledge intensive tasks in which we generalize the background corpus to a universal web snapshot. We investigate a slate of NLP tasks which rely on knowledge - either factual or common sense, and ask systems to use a subset of CCNet - the Sphere corpus - as a knowledge source. In contrast to Wikipedia, otherwise a common background corpus in KI-NLP, Sphere is orders of magnitude larger and better reflects the full diversity of knowledge on the web. Despite potential gaps in coverage, challenges of scale, lack of structure and lower quality, we find that retrieval from Sphere enables a state of the art system to match and even outperform Wikipedia-based models on several tasks. We also observe that while a dense index can outperform a sparse BM25 baseline on Wikipedia, on Sphere this is not yet possible. To facilitate further research and minimise the community's reliance on proprietary, black-box search engines, we share our indices, evaluation metrics and infrastructure.

研究の動機と目的

  • KI-NLPにおけるWikipediaの知識源としての限界、たとえばカバレッジのギャップ、構造的バイアス、常識的知識の欠如を解決すること。
  • 本当にオープンドメインでスケールの大きなウェブコーパス、たとえばSphereが、Wikipediaを上回る性能を示すかどうかを評価すること。
  • 洗練された知識源ではなく、大規模で非構造的なウェブコーパスを用いた検索ベースのモデルの実現可能性と性能を調査すること。
  • 研究コミュニティが特許権を有するブラックボックス検索エンジンに依存するのを減らすために、公開された検索インデックスと評価インfrastrucureを提供すること。

提案手法

  • 著者らは、Common Crawlウェブスナップショットの906Mのパassage、134Mのドキュメントに限定されたSphereコーパスに対して、大規模で密なベクトルインデックスを構築した。
  • 下流タスクのための関連パassageを検索するために、二重エンコーダー密度検索フレームワーク(DPR)とスパースなBM25ベースラインを用いた。
  • 評価のために、既存のKI-NLPベンチマーク(例:TriviaQA、FEVER、COPA、CommonsenseQA)を、WikipediaではなくSphereを知識源として使用するように変更した。
  • 回答生成のため、検出されたパassageを用いて、パassage検索モデル(DPR)とパassageリーダー(Fusion-in-Decoder)を微調整した。
  • 同じモデルアーキテクチャとトレーニング設定を用いて、SphereベースのモデルとWikipediaベースのベースラインの性能を比較した。
  • 再現可能性と広範な採用を促進するために、公開インデックス、評価メトリクス、インfrastrucureをリリースした。

実験結果

リサーチクエスチョン

  • RQ1Sphereのような大規模で非構造的なウェブコーパスで訓練された密度検索モデルが、Wikipediaを知識源とするモデルを上回る性能を示せるか?
  • RQ2ノイズが多く構造のないにもかかわらず、スケールと多様性が拡大したウェブの特性が、オープンドメイン質問応答および常識的推論における一般化と性能向上に寄与するか?
  • RQ3Sphereでは、スパース(BM25)と密度(DPR)の検索モデルの性能差が、Wikipediaよりも小さいのだろうか?これは、密度検索がノイジーで大規模なコーパスではあまり有効でない可能性を示唆している。
  • RQ4SphereがWikipediaに存在しない事実的知識や常識的知識をどれほどカバーしているか、具体的な例でWikipediaベースのモデルを上回る性能を示しているか?
  • RQ5公開でアクセス可能なウェブインデックスが、KI-NLP研究における特許権を有する検索エンジンに代われるのか。再現可能性とアクセシビリティにどのような実用的影響を与えるのか?

主な発見

  • Sphereベースの検索は、TriviaQA、FEVER、CommonsenseQAを含む複数のKI-NLPベンチマークで、Wikipediaベースの検索を上回っている。特に、FiD + BM25の最良のSphereベースのモデルは、いくつかのタスクで最先端の結果を達成している。
  • TriviaQAベンチマークにおいて、SphereベースのFiD + BM25モデルは、WikipediaベースのFiD + DPRウェブモデルを、正確一致(exact match)で4.2%、F1スコアで3.8%上回った。
  • COPA や PIQA などの常識的推論タスクでは、SphereベースのモデルがWikipediaベースのモデルを上回り、PIQAでは最大5.1%の向上を達成した。
  • Sphereは規模が大きくノイズが多いにもかかわらず、DPRの性能はまだBM25を上回っていない。これは、密度モデルがまだこのような非構造的かつ大規模なウェブデータに最適化されていない可能性を示唆している。
  • 本研究では、SphereがWikipediaに存在しない知識をカバーしていることが実証された。例として、ジョエル・サミ・ンツェバのWikipediaページは存在しないが、Sphereから検索可能である。これは、より広範なカバレッジを示している。
  • 著者らは、公開インデックス、評価コード、インfrastrucureを成功裏にリリースし、研究コミュニティが特許権を有する検索エンジンに依存せずに、研究を再現・拡張できるようにした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。