QUICK REVIEW

[논문 리뷰] Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine Translation

Jungo Kasai, Nikolaos Pappas|arXiv (Cornell University)|2020. 06. 18.

Natural Language Processing Techniques참고 문헌 53인용 수 64

한 줄 요약

본 논문은 깊은 인코더와 얕은 디코더를 갖춘 자기회귀 모델이 유사한 속도에서 강한 비자기회귀 모델보다 더 나은 성능을 낼 수 있으며, 전통적인 NAR 평가가 계층 할당, 속도 측정, 증류 관행으로 인해 AR 속도 향상을 과소평가한다고 주장한다.

ABSTRACT

Much recent effort has been invested in non-autoregressive neural machine translation, which appears to be an efficient alternative to state-of-the-art autoregressive machine translation on modern GPUs. In contrast to the latter, where generation is sequential, the former allows generation to be parallelized across target token positions. Some of the latest non-autoregressive models have achieved impressive translation quality-speed tradeoffs compared to autoregressive baselines. In this work, we reexamine this tradeoff and argue that autoregressive baselines can be substantially sped up without loss in accuracy. Specifically, we study autoregressive models with encoders and decoders of varied depths. Our extensive experiments show that given a sufficiently deep encoder, a single-layer autoregressive decoder can substantially outperform strong non-autoregressive models with comparable inference speed. We show that the speed disadvantage for autoregressive baselines compared to non-autoregressive methods has been overestimated in three aspects: suboptimal layer allocation, insufficient speed measurement, and lack of knowledge distillation. Our results establish a new protocol for future research toward fast, accurate machine translation. Our code is available at https://github.com/jungokasai/deep-shallow.

연구 동기 및 목표

일반적인 NAR 속도-정확도 트레이드오프와 평가 관행에 의문을 제기한다.
인코더/디코더 깊이 배치가 AR과 NAR 성능에 어떤 영향을 미치는지 조사한다.
공정한 비교 하에서 AR와 NAR 기초 모델에 대한 지식 증류의 영향을 평가한다.
빠르고 정확한 MT 모델을 평가하기 위한 수정된 프로토콜을 제시한다.

제안 방법

다양한 인코더/디코더 깊이를 가진 자기회귀(AR) 및 비자기회귀(NAR) 모델을 체계적으로 비교한다.
AR 및 NAR 모두에 대해 깊은 인코더-얕은 디코더 구성들을 도입하고 평가한다.
추론 속도를 두 가지 지표로 측정한다: S1(한 문장씩)과 Smax(하드웨어에서 최대 배치 크기).
공정한 비교를 위해 AR 및 NAR 기초에 시퀀스 수준 지식 증류를 적용한다.
복잡성을 분석하고 디코딩 반복(T는 NAR용)이 전체 연산량과 속도에 미치는 영향을 논의한다.
표준 전처리 및 평가(BLEU, SacreBLEU)를 사용하여 여러 WMT 방향에 대해 대규모 실험을 수행한다.

실험 결과

연구 질문

RQ1깊은 인코더에 얕은 디코더가 있는 구성이 AR에서 NAR보다 더 나은 속도-품질 트레이드오프를 제공하는가?
RQ2속도 측정(S1 대 Smax)이 AR와 NAR의 인식된 이점에 어떻게 영향을 미치는가?
RQ3인코더/디코더 계층 할당이 번역 품질과 디코딩 속도에 미치는 영향은 무엇인가?
RQ4공정한 비교를 보장하기 위해 AR와 NAR에 지식 증류 관행을 동일하게 적용해야 하는가?
RQ5강력한 NAR 방법과 비교할 때 AR 모델의 정확도를 손상시키지 않으면서 속도를 얼마나 높일 수 있는가?

주요 결과

깊은 인코더와 얕은 디코더를 갖춘 AR은 강력한 6-6 AR 기준선과 BLEU가 대등하지만 S1 디코딩은 훨씬 빠르다.
깊은 인코더-얕은 디코더 구성을 갖춘 NAR 모델은 일반적으로 AR에 비해 BLEU가 감소하고, AR 기준선보다 Smax 성능도 느리게 나타난다.
대규모 배치 디코딩에서 AR 속도 향상은 여전히 견고하지만 NAR 속도 향상은 배치 크기가 커질수록 감소한다.
지식 증류는 AR과 NAR 모두에 이점을 주지만 AR과 NAR 간의 정확도 차이는 여전히 크고, 증류를 둘 다에 적용하면 더 벌어진다.
단어 순서 재배열과 디코더 층 수는 NAR가 잘 작동하려면 더 깊은 디코더가 필요하게 만드는 핵심 요인이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.