Skip to main content
QUICK REVIEW

[論文レビュー] Rapidly Deploying a Neural Search Engine for the COVID-19 Open Research Dataset: Preliminary Thoughts and Lessons Learned

Edwin Zhang, Nïkhil Gupta|arXiv (Cornell University)|Apr 10, 2020
Explainable Artificial Intelligence (XAI)参考文献 26被引用数 35
ひとこと要約

著者らは Neural Covidex を急速に構築・展開し、COVID-19 Open Research Dataset (CORD-19) の neural-ranking ベースの検索エンジンを提供し、ライブシステム展開からのモジュール化コンポーネントと教訓を共有する。

ABSTRACT

We present the Neural Covidex, a search engine that exploits the latest neural ranking architectures to provide information access to the COVID-19 Open Research Dataset curated by the Allen Institute for AI. This web application exists as part of a suite of tools that we have developed over the past few weeks to help domain experts tackle the ongoing global pandemic. We hope that improved information access capabilities to the scientific literature can inform evidence-based decision making and insight generation. This paper describes our initial efforts and offers a few thoughts about lessons we have learned along the way.

研究の動機と目的

  • COVID-19 パンデミックにおけるエビデンスに基づく意思決定を支援するよう、情報アクセスの改善がどのように役立つかを動機づけ、説明する。
  • CORD-19 上のエンドツーエンド検索アプリケーションのアーキテクチャ、構成要素、および迅速な展開を説明する。
  • 将来の危機主導の情報システムとオープンソースの協力を導く教訓を提供する。
  • 研究コミュニティによる再現と拡張を可能にする再利用可能なソフトウェア成果物とノートブックを提供する。

提案手法

  • 初期のキーワード検索段階の後にニューラルリランキングを行う、複数段階の検索アーキテクチャを採用する。
  • 関連性と記事レベルの重複排除のバランスを取るため、段落レベルのスキーム(BM25スコアリングおよび段落インデックス)を用いてCORD-19をインデックスする。
  • 高速で再現性のあるキーワード検索のために、Anserini への Python バインディング(Pyserini)を提供し、ファセット閲覧のために Solr/Blacklight フロントエンドと統合する。
  • MS MARCO 上で T5-base モデルをファインチューニングし、二値の関連性タスクで候補文書をリランキングする。
  • 長文をスライディングウィンドウでスパンに分割し、最も高いスパンの関連性を選択して最終的な記事のランキングに用いる。
  • BioBERT を用いた教師なしで顕著な文をハイライトし、読者を関連箇所へ案内する。
  • Neural Covidex をモノリシックサービスとしてデプロイ(モジュール化の計画あり)、FastAPI、React フロントエンド、Cloudflare ロードバランシングを備えた GPU対応サーバークラスターを使用する。

実験結果

リサーチクエスチョン

  • RQ1ニューラルリランキングを従来のキーワード検索とどのように統合して、CORD-19 への情報アクセスを改善できるか?
  • RQ2危機に駆動された文献コーパスに対して、ライブのニューラル検索システムを急速に展開する際の実務的考慮事項とトレードオフは何か?
  • RQ3CORD-19 における段落レベルインデックスと全文インデックスの検索品質への影響はどのようなものか?
  • RQ4MS MARCO で事前学習されたシーケンス〜シーケンスモデルは、CORD-19 の結果を効果的にリランキングできるか?
  • RQ5パンデミック環境でライブのニューラル検索システムを展開する際の運用上および使いやすさに関する教訓は何か?

主な発見

  • Neural Covidex は BM25 キーワード検索と T5-base ニューラルリランキングを組み合わせて、CORD-19 上のランキング済み結果を生成する。
  • 段落レベルのインデックスは検索のバランスを改善し、段落間の重複は下流コンポーネントへの信号となり得る。
  • 典型的なクエリのエンドツーエンドの待機時間は、小規模な GPU クラスタで約2秒程度で、対話的な使用を可能にする。
  • 再現と拡張を支援するため、オープンソースの成果物(Anserini、Pyserini、ノートブック)が公開された。
  • 著者らは、ユーザー中心のフィードバックなしには正式なエンドツーエンド評価はまだ時期尚早であり、非公式の使いやすさに関する議論が危機時ツールにとって価値があると強調している。
  • 教訓は、ライブシステムにおけるオープンソースエコシステム、ソフトウェア工学実践、およびデプロイメントの考慮事項(遅延、スループット、UI の洗練)などの重要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。