[논문 리뷰] REALM: Retrieval-Augmented Language Model Pre-Training
REALM은 큰 텍스트 코퍼스에 대한 학습된 신경 검색기를 이용해 언어 모델의 사전 학습을 보강하고, 엔드 투 엔드의 비감독적 사전 학습과 향상된 오픈 도메인 QA 성능을 가능하게 한다. 이는 세 가지 Open-QA 벤치마크에서 이전의 검색 기반 및 생성 기반 방법보다 우수하며, 모델 크기는 중간 정도를 유지한다.
Language model pre-training has been shown to capture a surprising amount of world knowledge, crucial for NLP tasks such as question answering. However, this knowledge is stored implicitly in the parameters of a neural network, requiring ever-larger networks to cover more facts. To capture knowledge in a more modular and interpretable way, we augment language model pre-training with a latent knowledge retriever, which allows the model to retrieve and attend over documents from a large corpus such as Wikipedia, used during pre-training, fine-tuning and inference. For the first time, we show how to pre-train such a knowledge retriever in an unsupervised manner, using masked language modeling as the learning signal and backpropagating through a retrieval step that considers millions of documents. We demonstrate the effectiveness of Retrieval-Augmented Language Model pre-training (REALM) by fine-tuning on the challenging task of Open-domain Question Answering (Open-QA). We compare against state-of-the-art models for both explicit and implicit knowledge storage on three popular Open-QA benchmarks, and find that we outperform all previous methods by a significant margin (4-16% absolute accuracy), while also providing qualitative benefits such as interpretability and modularity.
연구 동기 및 목표
- latent knowledge retriever를 사전 학습에 통합해 세계 지식을 더 모듈화되게 포착하는 것을 동기 부여한다.
- unsupervised MLM 신호로 학습된 end-to-end retriever 및 knowledge-augmented encoder를 개발한다.
- 오픈-QA 작업을 위해 사전 학습 및 미세 조정에서 retrieval-then-predict를 가능하게 한다.
- MIPS 기반 검색과 비동기 인덱스 새로 고침으로 확장성을 입증한다.
- 디자인 선택을 알리기 위한 해석 가능한 검색 동작 및 제거 실험을 보여준다.
제안 방법
- 모델 아키텍처는 각 질의에 대해 상위 문서를 선택하기 위해 내적 점수화를 갖춘 밀집 검색기(dense retriever)를 결합한다.
- 검색기 임베딩은 입력 x에 대한 트랜스포머 기반 인코더와 z에 대한 별도 문서 인코더를 통해 학습되며 f(x,z) = Embed_input(x) dot Embed_doc(z)로 표현된다.
- 지식 보강 인코더는 검색된 문서에 조건화되어 x와 z 사이의 교차 주의를 사용해 y를 예측한다.
- 훈련은 상위-k 검색 문서에 대해 주변화하여 p(y|x) = sum_z p(y|x,z) p(z|x)를 최적화한다.
- 사전 학습은 검색된 문서를 활용한 마스킹 언어 모델링으로 마스킹된 토큰을 예측한다.
- 오픈-QA를 위한 미세 조정은 상위-k 문서를 검색하고(상위 5) 이를 주변화해 답변 구간이나 토큰을 예측한다.
- 대규모 코퍼스를 다루기 위해 비동기 인덱스 새로 고침이 가능한 Maximum Inner Product Search (MIPS)를 사용하여 검색 인덱스를 최신 상태로 유지한다.
실험 결과
연구 질문
- RQ1무감독 신호로 학습된 잠재 지식 검색기가 지식 집약적 작업을 위한 언어 모델 사전 학습을 개선할 수 있는가?
- RQ2End-to-end RETRIEVAL-augmented 사전 학습이 이전의 검색 기반 및 생성 기반 방법을 넘어 오픈-큐에 벤치마크를 개선하는가?
- RQ3검색된 문서의 품질이 다운스트림 예측 및 QA 정확도에 어떤 영향을 미치는가?
- RQ4사전 학습 중 검색을 안내하기 위한 효과적인 귀납 편향(예: 중요한 구간 마스킹)은 무엇인가?
- RQ5대규모 사전 학습에 통합될 때 MIPS 기반 검색이 확장 가능하고 안정적인가?
주요 결과
- REALM은 세 가지 벤치마크에서 이전 Open-QA 방법에 비해 절대 점수에서 4-16 포인트 차이를 보인다.
- REALM은 가장 큰 T5-11B 모델보다 성능이 뛰어나면서도 모델 크기는 30배 작다.
- 인코더와 검색기 모두 REALM 사전 학습의 이점을 얻으며, 공동 최적화에서 최고의 결과를 얻는다.
- 주요 구간 마스킹 및 널 문서를 포함하는 것이 검색의 유용성과 모델 성능을 향상시킨다.
- 비동기 MIPS 인덱스 새로 고침은 안정적인 최적화 및 검색 품질 향상을 가져온다.
- REALM은 검색된 문서가 예측에 어떻게 영향을 미치는지 보여주는 해석 가능한 검색 동작을 시연한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.