Skip to main content
QUICK REVIEW

[논문 리뷰] Non-Autoregressive Neural Machine Translation

Jiatao Gu, James Bradbury|arXiv (Cornell University)|2017. 11. 07.
Natural Language Processing Techniques참고 문헌 15인용 수 449
한 줄 요약

논문은 Transformer를 기반으로 한 비자 autoregressive 번역 모델(NAT)을 도입하며, fertilities를 잠재 변수로 사용하여 모든 출력물을 병렬로 생성하고, 대기 시간(latency) 이점이 크고 BLEU 점수도 경쟁력이 있다.

ABSTRACT

Existing approaches to neural machine translation condition each output word on previously generated outputs. We introduce a model that avoids this autoregressive property and produces its outputs in parallel, allowing an order of magnitude lower latency during inference. Through knowledge distillation, the use of input token fertilities as a latent variable, and policy gradient fine-tuning, we achieve this at a cost of as little as 2.0 BLEU points relative to the autoregressive Transformer network used as a teacher. We demonstrate substantial cumulative improvements associated with each of the three aspects of our training strategy, and validate our approach on IWSLT 2016 English-German and two WMT language pairs. By sampling fertilities in parallel at inference time, our non-autoregressive model achieves near-state-of-the-art performance of 29.8 BLEU on WMT 2016 English-Romanian.

연구 동기 및 목표

  • 신경 기계 번역에서 autoregressive 디코더를 넘어서 더 빠른 추론의 필요성을 자극한다.
  • 병렬 디코딩을 가능하게 하는 fertility 기반 잠재 변수를 가진 비자 autoregressive Transformer(NAT)을 제안한다.
  • 다중모달성 문제를 다루기 위한 시퀀스 수준 지식 증류 및 미세조정을 포함한 학습 전략을 제시한다.
  • latency 이점과 함께 IWSLT16 En–De 및 WMT En–De/En–Ro에서 실험적 개선을 보여준다.

제안 방법

  • fertility 예측기를 통해 비자 autoregressive 디코딩을 지원하도록 Transformer 인코더/디코더를 수정한다.
  • 소스 토큰이 대상 시퀀스에 복사되는 방식을 결정하는 잠재 변수로 fertilities를 도입한다.
  • 비인과(self-attention) 및 위치 주의(attention)을 디코더에서 사용하여 병렬 디코딩을 가능하게 한다.
  • 고품질의 autoregressive 교사로부터의 시퀀스 수준 지식 증류를 적용하여 대상 다중모달성 감소.
  • 잠재 변수에 대한 제안 q와 번역+fertility 두 항의 손실로 변분적 유사 목표를 사용하여 학습하되; 선택적으로 역KL 감소 및 증류 항으로 미세조정.
  • 추론 중에는 fertilities에 대해 휴리스틱 디코딩(최대화, 평균, 또는 잡음이 있는 병렬 디코딩) 사용하고 때로는 autoregressive 교사로 스코어링한다.

실험 결과

연구 질문

  • RQ1비 autoregressive 디코딩이 AR 모델과 비교해 BLEU 점수에 근접하면서도 대기 시간을 크게 줄일 수 있는가?
  • RQ2fertility 기반 잠재 변수가 NAT의 다중모달성 문제를 완화할 수 있는가?
  • RQ3어떤 학습 전략(증류, 미세조정)이 NAT의 성능과 안정성을 개선하는가?
  • RQ4표준 MT 벤치마크에서의 경험적 대기 시간과 정확도 간의 트레이드오프는 무엇인가?

주요 결과

모델WMT14 En→DeWMT14 De→EnWMT16 En→RoRo→EnIWSLT16 En→De지연/속도향상
NAT17.3520.6226.2227.8325.2039 ms15.6×
NAT (+FT)17.6921.4727.2929.0626.5239 ms15.6×
NAT (+FT + NPD s=10)18.6622.4129.0230.7627.4479 ms7.68×
NAT (+FT + NPD s=100)19.1723.2029.7931.4428.16257 ms2.36×
Autoregressive ( b=1 )22.7126.3931.3531.0328.89408 ms1.49×
Autoregressive ( b=4 )23.4527.0231.9131.7629.70607 ms1.00×
  • NAT는 상당한 대기 시간 감소를 달성한다(예: 특정 설정에서 디코딩 시간 39 ms 및 autoregressive 디코딩 대비 최대 15.6× 속도 증가).
  • fertility 기반 복사 및 학습 향상으로 NAT BLEU 차이가 autoregressive 교사에 비해 몇 점 축소된다(예: 차폐가 +4 BLEU 포인트까지의 개선).
  • 잡음 많은 병렬 디코딩(NPD)을 여러 fertilities 샘플과 함께 사용하면 BLEU 차이를 좁히고, WMT16 En–Ro의 경우 이전 최첨단 대비 0.2 BLEU 이내에 도달한다.
  • WMT14 En–De 및 WMT16 En–Ro에서, 증류 및 NPD를 갖춘 NAT는 AR 디코딩에 비해 큰 latency 이점을 유지하며 경쟁력 있는 성능을 보인다.
  • 시퀀스 수준 지식 증류와 미세조정을 사용하여 NAT가 AR 교사에 대한 성능 격차의 일부를 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.