Skip to main content
QUICK REVIEW

[논문 리뷰] Pre-training via Paraphrasing

Mike Lewis, Marjan Ghazvininejad|arXiv (Cornell University)|2020. 06. 26.
Topic Modeling참고 문헌 37인용 수 89
한 줄 요약

MARGE는 관련 문서를 검색하고 조건으로 삼아 목표를 재구성하도록 학습하는 다국어 검색 기반 사전 학습 모델로, 언어 간 강력한 제로샷 및 미세조정 성능을 가능하게 한다.

ABSTRACT

We introduce MARGE, a pre-trained sequence-to-sequence model learned with an unsupervised multi-lingual multi-document paraphrasing objective. MARGE provides an alternative to the dominant masked language modeling paradigm, where we self-supervise the reconstruction of target text by retrieving a set of related texts (in many languages) and conditioning on them to maximize the likelihood of generating the original. We show it is possible to jointly learn to do retrieval and reconstruction, given only a random initialization. The objective noisily captures aspects of paraphrase, translation, multi-document summarization, and information retrieval, allowing for strong zero-shot performance on several tasks. For example, with no additional task-specific training we achieve BLEU scores of up to 35.8 for document translation. We further show that fine-tuning gives strong performance on a range of discriminative and generative tasks in many languages, making MARGE the most generally applicable pre-training method to date.

연구 동기 및 목표

  • 마스크드 언어모델링을 넘어서는 프리트레이닝 목적을 다국어 관련 문서의 패러프레이징을 활용해 동기부여한다.
  • MARGE를 소개한다. 검색된 증거 문서로부터 타깃 텍스트를 재구성하도록 학습된 검색 강화 시퀀스-투-시퀀스 모델이다.
  • 다양한 언어에서 번역, 요약, 패러프레이징 및 QA에서 제로샷 및 미세조정 성능을 입증한다.
  • 프리트레이닝을 위해 임의 초기화에서 검색과 재구성을 함께 학습하고, 특정 작업 데이터 없이도 학습이 가능함을 보인다.

제안 방법

  • 검색된 문서를 인코드하고 타깃을 디코드하며 검색된 증거에 따라 조건화하는 다중 소스 시퀀스-투-시퀀스 모델을 정의한다.
  • 코사인 유사도로 Cross-attention이 관련된 검색 결과 문서를 편향되게 되도록 문서 인코더 g를 통해 유효성 판단 점수 f(x, z)을 학습한다.
  • 검색된 문서와 그 관련성 점수에 조건화되는 자동 인코더 스타일 재구성 손실로 학습한다.
  • 타깃-증거 연결성을 최대화하기 위해 샤드 내 관련 문서를 검색하고 연결하여 배치를 구성한다.
  • 디코딩 중에 검색된 문서 관련성 f(xi, zj)을 통합하는 학습 가능한 바이어스를 Cross-attention에 구현한다.
  • 대규모 Transformer 기반 아키텍처와 점진적 최적화를 통해 CC-NEWS 및 Wikipedia에서 규모의 프리트레이닝을 수행한다.

실험 결과

연구 질문

  • RQ1검색 기반 재구성 목표가 마스킹된 언어 모델에 대한 실질적인 프리트레이닝 대안이 될 수 있는가?
  • RQ2다언어 번역, 요약 및 QA에서 제로샷 및 미세조정 성능을 공동 검색 및 재구성 모델이 얼마나 달성할 수 있는가?
  • RQ3언어 간 검색증거를 포함시키는 것이 다언어 전이 및 문서 레벨 생성에 어떤 영향을 미치는가?
  • RQ4다국어 설정에서의 검색 기반 프리트레이닝의 한계점 및 도메인 의존성은 무엇인가?
  • RQ5다양한 언어에서 데이터 풍부도와 언어적 유사성에 따라 학습된 검색 구성요소가 어떻게 구성되는가?

주요 결과

  • MARGE는 작업별 미세조정 없이 문서 번역에서 BLEU 점수 35.8까지 달성한다.
  • 요약 및 번역 작업에서 제로샷 다언어 성능이 강력한 벤치마크와 경쟁적이다.
  • BUCC2018과 Tatoeba에서의 다언어 간 문장 검색에서 MARGE가 다른 비지도 모델들을 능가한다.
  • 패러프레이즈 작업(PAWS-X)에서 제로샷 전이에 대해 최첨단에 준하는 결과를 보여준다.
  • 질의응답(MLQA)에서 XLM-R과 경쟁력 있는 결과를 보이며, 중국어에서 강한 성능을 보인다.
  • 미세조정을 통해 MARGE는 다수의 언어 및 작업에서 마스크드 언어 모델에 비해 경쟁력 있는 결과를 얻는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.