QUICK REVIEW

[논문 리뷰] CO-Search: COVID-19 Information Retrieval with Semantic Search, Question Answering, and Abstractive Summarization

Andre Esteva, Anuprit Kale|arXiv (Cornell University)|2020. 06. 17.

Topic Modeling참고 문헌 26인용 수 32

한 줄 요약

CO-Search는 SBERT 임베딩과 TF-IDF 및 BM25를 결합한 COVID-19 문헌용 retriever-ranker 시맨틱 검색 엔진으로, 다중 홉 QA 모듈과 추상적 요약으로 문서 답변을 랭킹하고 제시합니다.

ABSTRACT

The COVID-19 global pandemic has resulted in international efforts to understand, track, and mitigate the disease, yielding a significant corpus of COVID-19 and SARS-CoV-2-related publications across scientific disciplines. As of May 2020, 128,000 coronavirus-related publications have been collected through the COVID-19 Open Research Dataset Challenge. Here we present CO-Search, a retriever-ranker semantic search engine designed to handle complex queries over the COVID-19 literature, potentially aiding overburdened health workers in finding scientific answers during a time of crisis. The retriever is built from a Siamese-BERT encoder that is linearly composed with a TF-IDF vectorizer, and reciprocal-rank fused with a BM25 vectorizer. The ranker is composed of a multi-hop question-answering module, that together with a multi-paragraph abstractive summarizer adjust retriever scores. To account for the domain-specific and relatively limited dataset, we generate a bipartite graph of document paragraphs and citations, creating 1.3 million (citation title, paragraph) tuples for training the encoder. We evaluate our system on the data of the TREC-COVID information retrieval challenge. CO-Search obtains top performance on the datasets of the first and second rounds, across several key metrics: normalized discounted cumulative gain, precision, mean average precision, and binary preference.

연구 동기 및 목표

빠르게 증가하는 COVID-19 문헌 코퍼스(CORD-19)에 대해 효과적인 검색 시스템을 제공한다.
강건한 문서 랭킹을 위해 시맨틱 및 키워드 기반 검색 신호를 통합한다.
답변 가능성을 높이기 위해 다중 홉 QA 출력과 추상적 요약으로 랭킹을 향상시킨다.
단락-인용 이분그래프를 사용하여 도메인 인식 임베딩을 학습시켜 시맨틱 검색을 개선한다.
TREC-COVID 벤치마크에 대해 성능을 평가하고 오픈 소스 코드를 공개한다.

제안 방법

SBERT를 위한 1.3백만 개의 (단락, 제목) 트레이닝 튜플을 생성하기 위해 단락과 인용의 이분그래프를 생성한다.
SBERT로 쿼리와 문서를 임베딩하여 시맨틱 최근접 이웃 검색을 가능하게 한다.
SBERT 단락 스코어를 TF-IDF 문서 스코어와 선형 결합하고 Reciprocal Rank Fusion을 통해 BM25와 융합한다.
다중 홉 QA 모델을 사용하여 정답 구간을 추출하고 QA 출력에 따라 랭킹을 조정한다.
추상적 요약가를 훈련시킨다(BERT 인코더 + 수정된 GPT-2 디코더)로 랭킹에 사용되는 단일 교차 주의 기반 요약을 생성한다.

실험 결과

연구 질문

RQ1시맨틱, TF-IDF, BM25 신호를 융합한 retriever-ranker 모델이 COVID-19 문헌 검색을 향상시킬 수 있는가?
RQ2다중 홉 QA 및 추상적 요약을 포함시키는 것이 검색된 문서의 관련성과 유용성을 향상시키는가?
RQ3단락-인용 이분그래프 기반 SBERT 학습이 소-중형 도메인 데이터셋에서 시맨틱 검색에 어떤 영향을 미치는가?
RQ4QA 주도 및 요약 주도 모듈링이 최종 랭킹 성능에 어떤 영향을 미치는가?

주요 결과

CO-Search는 자동 시스템 중 Round 1에서 nDCG@10, P@5, P@10, MAP, Bpref 등의 여러 지표에서 최고 성능을 달성했다.
Round 2에서도 동일 지표에 대해 자동 시스템 중 최고 순위를 차지했고, 라운드 간 비자동 시스템을 포함한 모든 시스템과 비교했을 때도 높은 순위를 차지했다.
주제-문서 쌍(주석 여부에 관계없이) 전체를 대상으로 평가했을 때, Round 1에서 상위 21위, Round 2에서 상위 3위를 차지했다.
이 시스템은 자동화되었고 오픈 소스이며, COVID-19 위기 동안 연구 및 실용적 검색 요구를 지원하도록 설계되었다.
아키텍처는 시맨틱 단락 임베딩과 키워드 문서 표현을 결합하고 QA-가이드 및 요약-가이드 재랭킹 접근법을 사용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.