Skip to main content
QUICK REVIEW

[논문 리뷰] Distilling Knowledge from Reader to Retriever for Question Answering

Gautier Izacard, Édouard Grave|arXiv (Cornell University)|2020. 12. 08.
Topic Modeling참고 문헌 37인용 수 39
한 줄 요약

본 논문은 독자(리더)의 교차 주의(attention) 점수에서 신호를 증류하여 강한 감독 없이 리트리버를 학습시키고, 오픈 도메인 QA 벤치마크에서 최첨단 성과를 달성한다.

ABSTRACT

The task of information retrieval is an important component of many natural language processing systems, such as open domain question answering. While traditional methods were based on hand-crafted features, continuous representations based on neural networks recently obtained competitive results. A challenge of using such methods is to obtain supervised data to train the retriever model, corresponding to pairs of query and support documents. In this paper, we propose a technique to learn retriever models for downstream tasks, inspired by knowledge distillation, and which does not require annotated pairs of query and documents. Our approach leverages attention scores of a reader model, used to solve the task based on retrieved documents, to obtain synthetic labels for the retriever. We evaluate our method on question answering, obtaining state-of-the-art results.

연구 동기 및 목표

  • 주석이 달린 쿼리-문서 쌍 없이도 오픈 도메인 QA를 위한 정보 검색의 향상을 촉진한다.
  • 리더가 주의(attention) 신호를 통해 리트리버 학습을 안내하는 학생-교사 프레임워크를 제안한다.
  • 리트리버와 리더의 성능을 점진적으로 향상시키는 반복 학습을 보여준다.

제안 방법

  • 질문과 검색된 구절을 처리하기 위해 리더로 Fusion-in-Decoder를 사용한다.
  • 구절 토큰에 대한 리더 교차 주의를 평균화하여 구절 관련도 점수 G_q,p를 정의한다.
  • KL-발산 손실을 통해 리더 점수를 모방하도록 밀집 이중 인코더 리트리버를 학습시킨다.
  • 주의 신호를 위한 대체 목표(MSE, max-margin)와 집계 방식들을 탐구한다.
  • 업데이트된 리트리버를 사용하여 새로운 구절을 가져오도록 리더와 리트리버를 반복적으로 재교육한다.

실험 결과

연구 질문

  • RQ1리더로부터의 신호를 증류하여 명시적 쿼리-문서 감독 없이도 리트리버를 효과적으로 학습시킬 수 있는가?
  • RQ2리더에서 도출된 주의 점수가 검색을 위한 구절 관련도와 얼마나 잘 상관관계가 있는가?
  • RQ3리더의 관련성을 모방하도록 바이-인코더 리트리버를 강하게 만들기 위한 최적의 학습 목표와 주의 집계 선택은 어떤 것인가?
  • RQ4반복적 교사-학생 학습이 비반복적 베이스라인과 비교해 엔드-투-엔드 QA 성능을 향상시키는가?

주요 결과

  • 주의 점수는 구절 관련도의 좋은 대리척이다.
  • KL-발산이 테스트된 목표들 중에서 최고의 검색 품질을 낸다.
  • 반복적 학습은 성능을 향상시키며, 초기 구절의 품질에 따라 이득이 달라진다.
  • BM25 또는 DPR 구절에서 시작하는 것이 원시 BERT 기반 검색과 같은 약한 베이스라인에서 시작하는 것보다 더 강한 결과를 낸다.
  • 더 큰 리더 모델을 가진 DPR에서 시작하면 TriviaQA 및 NaturalQuestions에서 엔드-투-엔드 개선이 두드러진다.
  • 이 방법은 여러 베이스라인과 비교해 오픈 도메인 QA 벤치마크에서 최첨단 성과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.