QUICK REVIEW

[논문 리뷰] BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining

Weizhen Qi, Yeyun Gong|arXiv (Cornell University)|2020. 12. 31.

Topic Modeling참고 문헌 29인용 수 24

한 줄 요약

BANG은 단일 모델이 마스크된 토큰과 참값 이전 토큰의 임의 조합을 처리할 수 있도록 훈련시켜 자동회귀(AR) 및 비자기회귀(NAR) 생성을 통합하는 통합형 사전학습 프레임워크이다. 이는 질문 생성, 요약, 대화 작업에서 NAR 및 세미-NAR 생성 분야에서 최고 성능을 기록하며, SQuAD 1.1과 XSum에서 각각 14.01 및 5.24의 절대적 향상을 이룬다. 또한 강력한 AR 모델과 유사한 성능을 유지한다.

ABSTRACT

In this paper, we propose BANG, a new pretraining model to Bridge the gap between Autoregressive (AR) and Non-autoregressive (NAR) Generation. AR and NAR generation can be uniformly regarded as to what extent previous tokens can be attended, and BANG bridges AR and NAR generation by designing a novel model structure for large-scale pretraining. The pretrained BANG model can simultaneously support AR, NAR and semi-NAR generation to meet different requirements. Experiments on question generation (SQuAD 1.1), summarization (XSum) and dialogue generation (PersonaChat) show that BANG improves NAR and semi-NAR performance significantly as well as attaining comparable performance with strong AR pretrained models. Compared with the semi-NAR strong baselines, BANG achieves absolute improvements of 14.01 and 5.24 in the overall scores of SQuAD 1.1 and XSum, respectively. In addition, BANG achieves absolute improvements of 10.73, 6.39 and 5.90 in the overall scores of SQuAD, XSUM and PersonaChat respectively compared with the strong NAR baselines.

연구 동기 및 목표

자연어 생성에서 자동회귀(AR) 및 비자기회귀(NAR) 생성 간 성능 격차를 해소하기 위해.
단일 모델 아키텍처를 사용해 AR, NAR, 세미-NAR 생성을 모두 지원하는 통합형 사전학습 프레임워크를 개발하기 위해.
혼합 어텐션 패턴을 사용한 대규모 사전학습을 통해 일반 자연어 생성 작업에서 NAR 생성 성능을 향상시키기 위해.
새로운 크로스스트림 가시 n스트림 자기어텐션 메커니즘을 사용해 다양한 어텐션 메커니즘(AR, NAR, 세미-NAR) 간 효율적인 병렬 훈련을 가능하게 하기 위해.

제안 방법

BANG은 훈련 중에 마스크된 토큰([MASK])와 참값 이전 토큰의 임의 조합을 참조할 수 있도록 허용하는 크로스스트림 가시 n스트림 자기어텐션 메커니즘을 사용해 디코더를 사전학습한다.
사전학습 중에는 각 타겟 토큰이 이전 참값 토큰의 임의의 수와 [MASK] 토큰의 임의의 수로 구성된 컨텍스트를 사용해 예측되며, 이로써 AR, NAR, 세미-NAR 패턴의 통합 모델링이 가능해진다.
모델은 사전학습 및 미세조정 모두에 동일한 아키텍처를 사용하므로, 아키텍처 변경 없이도 AR, NAR, 또는 세미-NAR 생성을 직접 미세조정할 수 있다.
크로스스트림 가시 n스트림 어텐션은 각각 [MASK] 및 참값 토큰 길이 조합에 해당하는 다양한 어텐션 스트림 간 효율적인 병렬 처리를 가능하게 한다.
사전학습은 16GB의 영어 텍스트(Wikipedia 및 BookCorpus)를 대상으로 하며, 이전 토큰의 동적 마스킹을 통해 AR 및 NAR 생성 간 목표를 조율한다.

실험 결과

연구 질문

RQ1다양한 어텐션 패턴을 모델링함으로써 단일 사전학습 프레임워크가 AR 및 NAR 생성을 효과적으로 통합할 수 있는가?
RQ2혼합된 AR 및 NAR 목표를 사용한 사전학습이 일반 자연어 생성 작업에서 NAR 생성 성능을 크게 향상시키는가?
RQ3통합 모델이 AR 생성에서 경쟁력 있는 성능을 달성하면서도 높은 성능의 NAR 및 세미-NAR 추론을 가능하게 하는가?
RQ4크로스스트림 가시 n스트림 어텐션 메커니즘이 다양한 어텐션 구성 간 효율적인 훈련을 어떻게 가능하게 하는가?

주요 결과

BANG은 강력한 세미-NAR 기준 모델 대비 SQuAD 1.1과 XSum에서 각각 14.01 및 5.24의 절대적 향상을 기록한다.
강력한 NAR 기준 모델 대비 SQuAD, XSum, PersonaChat에서 각각 10.73, 6.39, 5.90점의 점수 향상을 기록하며 NAR 성능을 향상시켰다.
NAR 미세조정에서 BANG은 NAR 및 AR 사전학습 모델(예: MASS)을 모두 능가하며, 다리형 사전학습 전략의 우수성을 입증한다.
BANG은 강력한 AR 사전학습 모델(예: BART)과 유사한 성능을 보이며 AR 생성에서 성능 저하 없이 통합 사전학습을 구현했다.
크로스스트림 가시 n스트림 어텐션 메커니즘은 [MASK] 및 참값 토큰 길이의 임의 조합에 대해 효율적인 훈련을 가능하게 하여 다양한 생성 패턴을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.