Skip to main content
QUICK REVIEW

[論文レビュー] CO-Search: COVID-19 Information Retrieval with Semantic Search, Question Answering, and Abstractive Summarization

Andre Esteva, Anuprit Kale|arXiv (Cornell University)|Jun 17, 2020
Topic Modeling参考文献 26被引用数 32
ひとこと要約

CO-Search は、SBERT 埋め込みを TF-IDF および BM25 と組み合わせ、マルチホップ QA モジュールと要約を追加した、COVID-19 文献の検索用リトリーバー-ランカー型セマンティック検索エンジンであり、文書回答をランク付けして提示する。

ABSTRACT

The COVID-19 global pandemic has resulted in international efforts to understand, track, and mitigate the disease, yielding a significant corpus of COVID-19 and SARS-CoV-2-related publications across scientific disciplines. As of May 2020, 128,000 coronavirus-related publications have been collected through the COVID-19 Open Research Dataset Challenge. Here we present CO-Search, a retriever-ranker semantic search engine designed to handle complex queries over the COVID-19 literature, potentially aiding overburdened health workers in finding scientific answers during a time of crisis. The retriever is built from a Siamese-BERT encoder that is linearly composed with a TF-IDF vectorizer, and reciprocal-rank fused with a BM25 vectorizer. The ranker is composed of a multi-hop question-answering module, that together with a multi-paragraph abstractive summarizer adjust retriever scores. To account for the domain-specific and relatively limited dataset, we generate a bipartite graph of document paragraphs and citations, creating 1.3 million (citation title, paragraph) tuples for training the encoder. We evaluate our system on the data of the TREC-COVID information retrieval challenge. CO-Search obtains top performance on the datasets of the first and second rounds, across several key metrics: normalized discounted cumulative gain, precision, mean average precision, and binary preference.

研究の動機と目的

  • 急速に拡大する COVID-19 文献コーパス(CORD-19)に対して効果的な検索システムを提供する。
  • セマンティック検索とキーワードベースの検索信号を統合し、頑健な文書ランク付けを実現する。
  • マルチホップ QA 出力と抽象的要約を用いたランク付けの強化により、回答可能性を改善する。
  • 段落-引用の二部グラフを用いてドメイン意識の埋め込みを訓練し、セマンティック検索を向上させる。
  • TREC-COVID ベンチマークに対する性能を評価し、オープンソースコードを公開する。

提案手法

  • SBERT の訓練用タプルとして、段落と引用の二部グラフを作成し、1.3 百万の(段落、タイトル)訓練タプルを生成する。
  • SBERT でクエリと文書を埋め込み、意味的最近傍検索を可能にする。
  • SBERT の段落スコアを TF-IDF の文書スコアと線形結合し、reciprocal rank fusion を用いて BM25 と融合する。
  • マルチホップ QA モデルを用いて回答部分を抽出し、QA 出力に基づいてランキングを調整する。
  • 要約器(BERT エンコーダー + 修正版 GPT-2 デコーダー)を訓練し、ランク付けに使用される単一のクロスアテンション型要約を生成する。

実験結果

リサーチクエスチョン

  • RQ1セマンティック、TF-IDF、および BM25 の信号を融合したリトリーバー-ランカー型モデルは、COVID-19 文献検索を改善できますか?
  • RQ2マルチホップ QA と抽象的要約の組み込みは、取得文書の関連性と有用性を向上させますか?
  • RQ3段落-引用二部グラフベースの SBERT 訓練は、小〜中規模ドメインデータセットにおけるセマンティック検索にどのような影響を与えますか?
  • RQ4QA駆動および要約駆動のモジュレーションが最終的なランキング性能に与える影響は何ですか?

主な発見

  • CO-Search は Round 1 において自動システムの中で、いくつかの指標(nDCG@10, P@5, P@10, MAP, Bpref)でトップ性能を達成した。
  • Round 2 では、同じ指標で自動システムの中でトップの順位を獲得し、他のすべてのシステム(自動・非自動を含む)と比較して高い評価を得た。
  • すべてのトピック-文書ペア(注釈付きおよび注釈なし)に対して評価した場合、Round 1 で上位21位、Round 2 で上位3位にランク付けされた。
  • このシステムは自動化され、オープンソースであり、COVID-19 危機時の研究および実践的な検索ニーズを支援するよう設計されている。
  • アーキテクチャはセマンティックな段落埋め込みとキーワード文書表現を組み合わせ、QA ガイドと要約ガイドの再ランク付けアプローチを用いる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。