Skip to main content
QUICK REVIEW

[논문 리뷰] CO-Search: COVID-19 Information Retrieval with Semantic Search, Question Answering, and Abstractive Summarization

Andre Esteva, Anuprit Kale|arXiv (Cornell University)|2020. 06. 17.
Topic Modeling참고 문헌 26인용 수 32
한 줄 요약

CO-Search는 SBERT 임베딩과 TF-IDF 및 BM25를 결합한 COVID-19 문헌용 retriever-ranker 시맨틱 검색 엔진으로, 다중 홉 QA 모듈과 추상적 요약으로 문서 답변을 랭킹하고 제시합니다.

ABSTRACT

The COVID-19 global pandemic has resulted in international efforts to understand, track, and mitigate the disease, yielding a significant corpus of COVID-19 and SARS-CoV-2-related publications across scientific disciplines. As of May 2020, 128,000 coronavirus-related publications have been collected through the COVID-19 Open Research Dataset Challenge. Here we present CO-Search, a retriever-ranker semantic search engine designed to handle complex queries over the COVID-19 literature, potentially aiding overburdened health workers in finding scientific answers during a time of crisis. The retriever is built from a Siamese-BERT encoder that is linearly composed with a TF-IDF vectorizer, and reciprocal-rank fused with a BM25 vectorizer. The ranker is composed of a multi-hop question-answering module, that together with a multi-paragraph abstractive summarizer adjust retriever scores. To account for the domain-specific and relatively limited dataset, we generate a bipartite graph of document paragraphs and citations, creating 1.3 million (citation title, paragraph) tuples for training the encoder. We evaluate our system on the data of the TREC-COVID information retrieval challenge. CO-Search obtains top performance on the datasets of the first and second rounds, across several key metrics: normalized discounted cumulative gain, precision, mean average precision, and binary preference.

연구 동기 및 목표

  • 빠르게 증가하는 COVID-19 문헌 코퍼스(CORD-19)에 대해 효과적인 검색 시스템을 제공한다.
  • 강건한 문서 랭킹을 위해 시맨틱 및 키워드 기반 검색 신호를 통합한다.
  • 답변 가능성을 높이기 위해 다중 홉 QA 출력과 추상적 요약으로 랭킹을 향상시킨다.
  • 단락-인용 이분그래프를 사용하여 도메인 인식 임베딩을 학습시켜 시맨틱 검색을 개선한다.
  • TREC-COVID 벤치마크에 대해 성능을 평가하고 오픈 소스 코드를 공개한다.

제안 방법

  • SBERT를 위한 1.3백만 개의 (단락, 제목) 트레이닝 튜플을 생성하기 위해 단락과 인용의 이분그래프를 생성한다.
  • SBERT로 쿼리와 문서를 임베딩하여 시맨틱 최근접 이웃 검색을 가능하게 한다.
  • SBERT 단락 스코어를 TF-IDF 문서 스코어와 선형 결합하고 Reciprocal Rank Fusion을 통해 BM25와 융합한다.
  • 다중 홉 QA 모델을 사용하여 정답 구간을 추출하고 QA 출력에 따라 랭킹을 조정한다.
  • 추상적 요약가를 훈련시킨다(BERT 인코더 + 수정된 GPT-2 디코더)로 랭킹에 사용되는 단일 교차 주의 기반 요약을 생성한다.

실험 결과

연구 질문

  • RQ1시맨틱, TF-IDF, BM25 신호를 융합한 retriever-ranker 모델이 COVID-19 문헌 검색을 향상시킬 수 있는가?
  • RQ2다중 홉 QA 및 추상적 요약을 포함시키는 것이 검색된 문서의 관련성과 유용성을 향상시키는가?
  • RQ3단락-인용 이분그래프 기반 SBERT 학습이 소-중형 도메인 데이터셋에서 시맨틱 검색에 어떤 영향을 미치는가?
  • RQ4QA 주도 및 요약 주도 모듈링이 최종 랭킹 성능에 어떤 영향을 미치는가?

주요 결과

  • CO-Search는 자동 시스템 중 Round 1에서 nDCG@10, P@5, P@10, MAP, Bpref 등의 여러 지표에서 최고 성능을 달성했다.
  • Round 2에서도 동일 지표에 대해 자동 시스템 중 최고 순위를 차지했고, 라운드 간 비자동 시스템을 포함한 모든 시스템과 비교했을 때도 높은 순위를 차지했다.
  • 주제-문서 쌍(주석 여부에 관계없이) 전체를 대상으로 평가했을 때, Round 1에서 상위 21위, Round 2에서 상위 3위를 차지했다.
  • 이 시스템은 자동화되었고 오픈 소스이며, COVID-19 위기 동안 연구 및 실용적 검색 요구를 지원하도록 설계되었다.
  • 아키텍처는 시맨틱 단락 임베딩과 키워드 문서 표현을 결합하고 QA-가이드 및 요약-가이드 재랭킹 접근법을 사용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.