[논문 리뷰] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
BART는 양방향 인코딩과 자기회귀 디코딩을 결합한 잡음 제거 자동인코더 사전학습 프레임워크로, 생성 및 이해 과제에서 강력한 성능을 가능하게 하고, 판별적 과제에서도 경쟁력 있는 결과를 제공합니다.
We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-based neural machine translation architecture which, despite its simplicity, can be seen as generalizing BERT (due to the bidirectional encoder), GPT (with the left-to-right decoder), and many other more recent pretraining schemes. We evaluate a number of noising approaches, finding the best performance by both randomly shuffling the order of the original sentences and using a novel in-filling scheme, where spans of text are replaced with a single mask token. BART is particularly effective when fine tuned for text generation but also works well for comprehension tasks. It matches the performance of RoBERTa with comparable training resources on GLUE and SQuAD, achieves new state-of-the-art results on a range of abstractive dialogue, question answering, and summarization tasks, with gains of up to 6 ROUGE. BART also provides a 1.1 BLEU increase over a back-translation system for machine translation, with only target language pretraining. We also report ablation experiments that replicate other pretraining schemes within the BART framework, to better measure which factors most influence end-task performance.
연구 동기 및 목표
- 생성과 이해 두 가지 작업을 모두 지원하는 다재다능한 사전학습 목표의 필요성을 제시한다.
- 폭넓은 텍스트 손상(noising) 스킴을 탐색하고 어느 스킴이 강건한 하류 성능을 제공하는지 확인한다.
- 하나의 사전학습 모델로 다양한 작업(분류, QA, 생성, 번역)에 대해 어떻게 미세조정할 수 있는지 보여준다.
- 노이즈 제거 seq2seq 사전학습이 여러 벤치마크에서 기존의 강력한 사전학습 방법과 동등하거나 그 이상일 수 있음을 보여준다.
제안 방법
- 양방향 인코더와 자기회귀 디코더를 갖춘 표준 Transformer 기반 seq2seq 아키텍처를 사용한다.
- 임의의 noising 함수로 문서를 손상시키고 원문을 재구성하도록 학습시켜 사전학습한다 (음의 로그 우도).
- 토큰 마스킹, 토큰 삭제, 텍스트 인필링, 문장 순열, 문서 회전 및 이들의 조합을 포함한 다양한 noising 스킴을 평가한다.
- 작업별 적응을 통해 시퀀스 분류, 토큰 분류, 시퀀스 생성, 기계 번역에 대해 미세조정한다.
- 번역의 경우, 외국어 단어를 영어로 매핑하기 위해 작은 추가 인코더를 갖도록 BART를 확장하고, 별도의 어휘로 엔드투엔드로 학습한다.
실험 결과
연구 질문
- RQ1손상된 텍스트에서 작동하는 노이즈 제거 자동인코더 사전학습 목표가 생성과 이해 작업 전반에 걸쳐 일반화될 수 있는가?
- RQ2다양한 NLP 벤치마크에서 강건한 최종 작업 성능을 내는 어떤 noising 스킴이 있는가?
- RQ3판별적 및 생성적 작업 모두에서 BART가 기존의 사전학습 방식(예: BERT, RoBERTa, XLNet)과 어떻게 비교되는가?
- RQ4추가된 인코더와 함께 디코더로 사용될 때 하나의 사전학습 모델이 기계 번역을 개선할 수 있는가?
- RQ5다양한 사전학습 목표의 하위 제거 연구가 하류 성능에 기여하는 바를 어떻게 밝히는가?
주요 결과
- BART는 판별적 과제에서 GLUE 및 SQuAD에서 RoBERTa 유사한 성능을 보이는 한편, 추상적(생성) 과제에서 최첨단 결과를 제공합니다.
- 텍스트 인필링 및 관련 noising 스킴은 태스크 전반에 걸쳐 일관되게 강력한 성능을 내며, 많은 설정에서 다른 사전학습 목표를 능가합니다.
- 요약에서 BART는 이전 연구를 크게 능가하며, XSum과 같은 추상적 데이터셋에서 현저한 이득이 있습니다.
- 번역에서 BART를 사전학습된 디코더로 사용하고(작은 추가 인코더 포함) 강력한 역번역 baselines 대비 BLEU 향상을 제공합니다.
- 절삭 연구는 전처리 선택과 사전학습 목표가 최종 작업 성능에 영향을 미치며, 생성에 대해 양방향 인코더와 자기회귀 디코더가 유리하다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.