Skip to main content
QUICK REVIEW

[논문 리뷰] Data Augmentation for BERT Fine-Tuning in Open-Domain Question Answering

Wei Yang, Yuqing Xie|arXiv (Cornell University)|2019. 04. 14.
Topic Modeling참고 문헌 21인용 수 37
한 줄 요약

논문은 엔드-투-엔드 오픈 도메인 QA를 위한 BERT의 원격 감독(distant-supervision) 데이터 증강을 도입하고, 증강 데이터(음성 예시 포함)를 포함한 단계별 파인튜닝이 영어 및 중국어 데이터셋에서 English BERTserini 대비 상당한 이득을 가져다 준다는 것을 보여준다.

ABSTRACT

Recently, a simple combination of passage retrieval using off-the-shelf IR techniques and a BERT reader was found to be very effective for question answering directly on Wikipedia, yielding a large improvement over the previous state of the art on a standard benchmark dataset. In this paper, we present a data augmentation technique using distant supervision that exploits positive as well as negative examples. We apply a stage-wise approach to fine tuning BERT on multiple datasets, starting with data that is "furthest" from the test data and ending with the "closest". Experimental results show large gains in effectiveness over previous approaches on English QA datasets, and we establish new baselines on two recent Chinese QA datasets.

연구 동기 및 목표

  • 더 나은 데이터 준비를 통해 새로운 모델 아키텍처가 아니라 엔드-투-엔드 오픈 도메인 QA의 개선을 동기화한다.
  • 원격 감독이 검색 기반 프레임워크에 맞춘 질문-단락(training pairs)를 어떻게 생성할 수 있는지 탐구한다.
  • 다양한 소스와 증강 데이터 세트를 사용한 단계별 파인튜닝 전략을 평가한다.
  • 영어 및 중국어 QA 데이터셋에서 증강에 음수 예제를 포함하는 영향력을 보여준다.

제안 방법

  • BM25를 통한 단락 수준 검색과 각 후보 단락 위에 BERT 리더를 사용하는 기존 BERTserini 리더 설정을 사용한다.
  • 원격 감독을 통해 증강 학습 데이터를 구성한다: DS(+)는 양수 예제만 사용, DS(±)는 답이 포함되지 않는 상위 n개의 검색 단락에서 가져온 음수 예제를 포함한다.
  • 테스트 데이터와의 거리에 따라 가장 먼 데이터에서 가장 가까운 데이터까지 단계적으로 BERT를 미세조정하며, 모든 데이터를 한꺼번에 혼합하는 방식은 피한다.
  • retriever와 reader 점수를 결합하는 보간 매개변수 mu를 보류 세트를 사용하여 튜닝한다.
  • EM 및 F1로 평가하고 검색된 단락에 대한 재현율(R)을 포함하여 SQuAD, TriviaQA, CMRC, DRCD에서 엔드-투-엔드 QA를 평가한다.

실험 결과

연구 질문

  • RQ1원격 감독 데이터 증강이 기본 BERTserini 설정을 넘어 엔드-투-엔드 오픈 도메인 QA를 개선하는가?
  • RQ2QA 파인튜닝에 원격 감독에서 음수 예제를 포함하는 효과는 무엇인가?
  • RQ3데이터 세트 간의 공동 파인튜닝보다 가장 먼 데이터에서 가장 가까운 데이터로의 단계별 파인튜닝 전략이 더 우수한가?
  • RQ4영어 및 중국어 QA 데이터셋에서 서로 다른 장르와 출처를 가진 증강 방식의 성능은 어떠한가?

주요 결과

  • DS(+)로 학습을 보강하면 SQuAD에서 소스 전용 기준선보다 EM과 F1이 향상된다 (SRC: 41.8 EM, DS(+: 44.0 EM, F1 51.4).
  • 음수 예제(Ds(±))를 포함하면 더 큰 이득이 발생한다 (SQuAD: EM이 최대 48.7, F1 56.5까지 증가) 단 양수 전용 증강보다 우수하다.
  • DS(±) → SRC와 함께 단계별 튜닝은 데이터를 혼합하는 것보다 더 나은 결과를 낳으며 (SRC → DS(±)도 효과적) SQuAD에서 이전의 BERTserini를 10포인트 이상 상회한다.
  • TriviaQA는 데이터 증강이 도움이 되며 DS(±)가 EM 54.4 및 F1 60.2를 달성하고, 단계별 튜닝이 모든 조합 중 최상의 결과를 제공한다.
  • 중국어 데이터세트 CMRC 및 DRCD도 DS(±)와 단계별 튜닝의 이점을 얻으며, 대다수 설정에서 DS(±) 및 SRC+DS(±)가 엔드-투-엔드 성능을 가장 강하게 끌어올린다.
  • 전반적으로 음수 예제를 포함한 원격 감독과 가장 먼 데이터에서 가장 가까운 데이터로의 미세조정 순서를 사용하는 경우 영어 및 중국어 데이터셋에서 엔드-투-엔드 QA 성능이 일관되게 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.