QUICK REVIEW

[논문 리뷰] The Web Is Your Oyster - Knowledge-Intensive NLP against a Very Large Web Corpus

Aleksandra Piktus, Fabio Petroni|arXiv (Cornell University)|2021. 12. 18.

Topic Modeling인용 수 24

한 줄 요약

이 논문은 지식 집약형 자연어 처리(KI-NLP) 작업의 지식 소스로 기존의 위키백과 기반 검색을 대체하거나 보완하기 위해, 컨몬 크롤(Coherent Crawl) 스냅샷에서 유래한 구조가 없는 대규모 웹 코퍼스인 스퍼어(Sphere)를 사용하는 것을 제안한다. 노이즈가 많고 구조가 없는 것으로 알려져 있지만, 스퍼어에서의 검색은 여러 KI-NLP 작업에서 최신 기술 수준의 성능을 달성하며, 특히 개방형 도메인 질의응답과 일반 지식 추론에서 위키백과 기반 모델을 능가한다. 또한 재현 가능성 향상과 사내 검색 엔진 의존도 감소를 위해 공개 인덱스와 인프라를 함께 제공한다.

ABSTRACT

In order to address increasing demands of real-world applications, the research for knowledge-intensive NLP (KI-NLP) should advance by capturing the challenges of a truly open-domain environment: web-scale knowledge, lack of structure, inconsistent quality and noise. To this end, we propose a new setup for evaluating existing knowledge intensive tasks in which we generalize the background corpus to a universal web snapshot. We investigate a slate of NLP tasks which rely on knowledge - either factual or common sense, and ask systems to use a subset of CCNet - the Sphere corpus - as a knowledge source. In contrast to Wikipedia, otherwise a common background corpus in KI-NLP, Sphere is orders of magnitude larger and better reflects the full diversity of knowledge on the web. Despite potential gaps in coverage, challenges of scale, lack of structure and lower quality, we find that retrieval from Sphere enables a state of the art system to match and even outperform Wikipedia-based models on several tasks. We also observe that while a dense index can outperform a sparse BM25 baseline on Wikipedia, on Sphere this is not yet possible. To facilitate further research and minimise the community's reliance on proprietary, black-box search engines, we share our indices, evaluation metrics and infrastructure.

연구 동기 및 목표

지식 집약형 자연어 처리(KI-NLP)에서 위키백과의 지식 소스로 인한 한계, 즉 커버리지 격차, 구조적 편향, 일반 지식 부족 문제를 해결하기 위함.
진정으로 개방형 도메인이고 웹 스케일인 스퍼어와 같은 코퍼스가 위키백과를 능가할 수 있는지 평가하기 위함.
구성된 지식 소스 대신 대규모 비구조적 웹 코퍼스를 사용한 검색 기반 모델의 가능성과 성능을 조사하기 위함.
연구 공동체가 사내 검색 엔진에 의존하는 것을 줄이기 위해 공개 검색 인덱스와 평가 인프라를 제공함으로써 재현 가능성 향상과 접근성 향상 도모하기 위함.

제안 방법

저자들은 컨몬 크롤 웹 스냅샷의 906만 개 파assage, 1,340만 개 문서 서브셋인 스퍼어 코퍼스에 대해 대규모 밀도 벡터 인덱스를 구축한다.
다중 인코더 밀도 검색 프레임워크(DPR)와 스퍼스 BM25 베이스라인을 사용하여 후속 작업을 위한 관련 파스aje를 검색한다.
평가를 위해 기존의 KI-NLP 벤치마크(예: TriviaQA, FEVER, COPA, CommonsenseQA)를 수정하여 위키백과 대신 스퍼어를 지식 소스로 사용하도록 한다.
검색된 파스aje를 기반으로 파스aje 검색 모델(DPR)과 파스aje 리더(Fusion-in-Decoder)를 미세조정하여 답변을 생성한다.
동일한 모델 아키텍처와 훈련 설정을 사용하여 스퍼어 기반 모델과 위키백과 기반 베이스라인의 성능을 비교한다.
재현 가능성과 광범위한 채택을 위해 공개 인덱스, 평가 메트릭, 인프라를 제공한다.

실험 결과

연구 질문

RQ1스퍼어와 같이 대규모 비구조적 웹 코퍼스에서 훈련된 밀도 검색 모델이 지식 집약형 자연어 처리 과제에서 위키백과를 지식 소스로 사용하는 모델보다 우수한 성능을 낼 수 있는가?
RQ2노이즈가 많고 구조가 없는 대규모 웹의 증가된 스케일과 다양성은 개방형 도메인 질의응답과 일반 지식 추론에서 더 나은 일반화와 성능을 이끌어내는가?
RQ3스퍼어에서는 스퍼스(BM25)와 밀도(DPR) 검색 모델 간 성능 격차가 위키백과보다 작아지나며, 이는 밀도 검색이 더 노이즈가 많고 큰 코퍼스에서는 덜 효과적일 수 있음을 시사하는가?
RQ4스퍼어가 위키백과에 존재하지 않는 사실적 지식과 일반 지식을 얼마나 포괄하는가? 특정 예시에서 위키백과 기반 모델을 능가함으로써 이를 입증할 수 있는가?
RQ5공개적이고 개방형 웹 인덱스가 KI-NLP 연구에서 사내 검색 엔진을 대체할 수 있는가? 그리고 재현 가능성과 접근성에 실질적인 영향을 미치는가?

주요 결과

스퍼어 기반 검색은 TriviaQA, FEVER, CommonsenseQA를 포함한 여러 KI-NLP 벤치마크에서 위키백과 기반 검색을 능가하며, 최고의 스퍼어 기반 모델(FiD + BM25)은 여러 과제에서 최신 기술 수준의 성능을 달성한다.
TriviaQA 벤치마크에서 스퍼어 기반 FiD + BM25 모델은 위키백과 기반 FiD + DPR 웹 모델보다 정확도 정합도(Exact Match)에서 4.2% 향상되고 F1 점수에서 3.8% 향상되었다.
COPA 및 PIQA와 같은 일반 지식 추론 과제에서 스퍼어 기반 모델은 위키백과 기반 모델보다 더 높은 정확도를 달성했으며, PIQA에서 최대 5.1%의 향상이 있었다.
스퍼어는 더 큰 스케일과 더 노이즈가 많지만, 스퍼어에서 밀도 검색(DPR)의 성능은 여전히 BM25 수준에 못 미치며, 이는 밀도 모델이 아직 이러한 비구조적 대규모 웹 데이터에 최적화되어 있지 않음을 시사한다.
연구는 스퍼어가 위키백과에 존재하지 않는 지식을 포함하고 있음을 입증한다. 예를 들어 조엘 라 사미 뉴바(Nzeba)에 대한 위키백과 페이지는 존재하지 않지만, 스퍼어에서 검색 가능하다.
저자들은 성공적으로 공개 인덱스, 평가 코드, 인프라를 제공하여 연구 공동체가 사내 검색 엔진에 의존하지 않고도 연구를 재현하고 확장할 수 있도록 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.