Skip to main content
QUICK REVIEW

[논문 리뷰] Incorporating BERT into Parallel Sequence Decoding with Adapters

Junliang Guo, Zhirui Zhang|arXiv (Cornell University)|2020. 10. 13.
Topic Modeling참고 문헌 38인용 수 40
한 줄 요약

이 논문은 AB-Net을 제시합니다. 이 프레임워크는 두 개의 BERT 모델(소스와 타깃)에 경량 어댑터를 삽입하여 Mask-Predict로 병렬 시퀀스 디코딩을 가능하게 하고, 디코딩 지연 시간을 절반으로 줄이면서 매개변수 사용을 효율적으로 달성해 강력한 NMT 성능을 보여줍니다.

ABSTRACT

While large scale pre-trained language models such as BERT have achieved great success on various natural language understanding tasks, how to efficiently and effectively incorporate them into sequence-to-sequence models and the corresponding text generation tasks remains a non-trivial problem. In this paper, we propose to address this problem by taking two different BERT models as the encoder and decoder respectively, and fine-tuning them by introducing simple and lightweight adapter modules, which are inserted between BERT layers and tuned on the task-specific dataset. In this way, we obtain a flexible and efficient model which is able to jointly leverage the information contained in the source-side and target-side BERT models, while bypassing the catastrophic forgetting problem. Each component in the framework can be considered as a plug-in unit, making the framework flexible and task agnostic. Our framework is based on a parallel sequence decoding algorithm named Mask-Predict considering the bi-directional and conditional independent nature of BERT, and can be adapted to traditional autoregressive decoding easily. We conduct extensive experiments on neural machine translation tasks where the proposed method consistently outperforms autoregressive baselines while reducing the inference latency by half, and achieves $36.49$/$33.57$ BLEU scores on IWSLT14 German-English/WMT14 German-English translation. When adapted to autoregressive decoding, the proposed method achieves $30.60$/$43.56$ BLEU scores on WMT14 English-German/English-French translation, on par with the state-of-the-art baseline models.

연구 동기 및 목표

  • 경량 어댑터를 사용하여 두 개의 사전 학습된 BERT 모델을 인코더와 디코더로 사용하는 seq2seq 프레임워크를 탐구한다.
  • BERT 매개변수를 고정하고 어댑터만 학습시켜 재앙적 망각을 완화한다.
  • 조건부 마스킹 언어 모델링 목표 L(y^m|y^r,x; Aenc, Adec)와 함께 Mask-Predict 병렬 디코딩 방식을 적용하여 BERT의 양방향 컨텍스트를 활용하면서 조건적 생성을 유지한다.
  • 여러 번역 작업 및 언어에서 자동회귀 기준선보다 성능 향상을 보여주는지 시연한다.

제안 방법

  • 인코더와 디코더 양측의 모든 BERT 계층에 어댑터 모듈을 삽입하고 어댑터만 미세조정한다.
  • 두 개의 BERT 모델(소스 측 Xbert와 타깃 측 Ybert)을 인코더/디코더로 사용하는 seq2seq 설정을 활용한다.
  • 식(3)와 유사한 조건부 마스킹 언어 모델링 목표 L(y^m|y^r,x; Aenc, Adec)로 학습한다.
  • BERT의 양방향 맥락을 활용하고 빠른 추론을 가능하게 하기 위해 Mask-Predict 병렬 디코딩을 채택한다; 필요하면 자동회귀 디코딩으로 확장한다.
  • 특수 [LENGTH] 토큰을 통해 타깃 길이를 예측하고 마스크-및-예측 디코딩을 반복적 정제와 함께 수행한다.
  • 성능과 매개변수 효율의 균형을 맞추기 위해 어댑터 아키텍처(Aenc, Adec) 및 계층 배치를 다양화할 수 있다.

실험 결과

연구 질문

  • RQ1어댑터를 사용하여 seq2seq 프레임워크에서 BERT를 인코더와 디코더로 함께 활용할 수 있는가?
  • RQ2BERT 계층을 고정하고 어댑터 모듈만 학습시키는 것이 재앙적 망각을 완화하고 효율성을 향상시키는가?
  • RQ3Mask-Predict로의 병렬 디코딩이 자동회귀 기준선에 비해 속도 향상과 경쟁력 있는 번역 품질을 제공하는가?
  • RQ4어댑터 규모와 아키텍처가 성능과 학습 효율성에 어떤 영향을 미치는가?
  • RQ5다양한 언어쌍과 리소스 설정에서 프레임워크가 효과적인가?

주요 결과

모델De-En (IWSLT14)Ro-En (IWSLT14)En-De (WMT16)De-En (WMT14)지연 시간매개변수
Transformer-Base33.5934.4628.0432.69778 ms74 M
Mask-Predict31.7133.3127.0330.53161 ms75 M
BERT-Fused NAT33.1434.1227.7332.10260 ms90 M
AB-Net36.4935.6328.6933.57327 ms67 M
AB-Net-Enc34.45-28.08-165 ms78 M
  • AB-Net은 병렬 디코딩으로 IWSLT14 De-En에서 36.49 BLEU, WMT14 De-En에서 33.57 BLEU를 달성하며 Mask-Predict 및 자동회귀 기준선보다 우수하다.
  • AB-Net은 유사한 학습 가능한 매개변수 수를 가진 Transformer-Base에 비해 디코딩 지연 시간을 약 2배 감소시킨다.
  • Dual-side BERT(인코더 및 디코더)와 함께하는 AB-Net은 BERT-Fused NAT보다 학습 가능한 매개변수가 적으면서도 기준선보다 높은 BLEU를 달성한다.
  • 인코더 및 디코더 측 어댑터는 모델이 두 BERT 모델의 정보를 활용하고 조건부 의존성을 모델링하도록 하여 성능을 향상시킨다.
  • AB-Net-Enc(어댑터를 가진 인코더 전용 BERT)도 강한 결과를 보이며 상위 계층에 어댑터를 사용하면 매개변수를 줄이면서도 성능을 유지할 수 있다.
  • 저자원(IWSLT14)에서 En-It, It-En, En-Es, Es-En, En-Nl, Nl-En에서 AB-Net이 항상 기준값보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.