QUICK REVIEW

[논문 리뷰] Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation

Chenze Shao, Jinchao Zhang|arXiv (Cornell University)|2019. 11. 21.

Natural Language Processing Techniques참고 문헌 37인용 수 42

한 줄 요약

연속 의존성을 더 잘 모델링하고 긴 문장에서 번역 품질을 개선하기 위해 differentiable Bag-of-N-grams (BoN) 목표를 제안하여 비자 autoregressive NMT (NAT)를 학습시키는 것이 목적이다.

ABSTRACT

Non-Autoregressive Neural Machine Translation (NAT) achieves significant decoding speedup through generating target words independently and simultaneously. However, in the context of non-autoregressive translation, the word-level cross-entropy loss cannot model the target-side sequential dependency properly, leading to its weak correlation with the translation quality. As a result, NAT tends to generate influent translations with over-translation and under-translation errors. In this paper, we propose to train NAT to minimize the Bag-of-Ngrams (BoN) difference between the model output and the reference sentence. The bag-of-ngrams training objective is differentiable and can be efficiently calculated, which encourages NAT to capture the target-side sequential dependency and correlates well with the translation quality. We validate our approach on three translation tasks and show that our approach largely outperforms the NAT baseline by about 5.0 BLEU scores on WMT14 En$\leftrightarrow$De and about 2.5 BLEU scores on WMT16 En$\leftrightarrow$Ro.

연구 동기 및 목표

NAT의 단어 수준 교차 엔트로피와 번역 품질 간의 상관관계가 낮은 문제를 해결하여 NAT를 동기를 부여한다.
NAT에서 대상 측의 순차 의존성을 모델링하기 위한 differentiable BoN 기반 목표를 도입한다.
학습 속도를 유지하면서 NAT 내에서 BoN을 효율적으로 계산하는 방법을 제공한다.
BoN 기반 학습이 여러 언어쌍에서 번역 품질을 향상시키는지 입증한다.
BoN 기반 방법을 단독으로(파인튜닝) 또는 교차 엔트로피와 함께 엔드투엔드 학습으로 사용할 수 있음을 보인다.

제안 방법

불연속 문장에 대해 BoN을 n-gram 원-핫 벡터의 합으로 정의한다.
NAT에 대해 BoN의 기대치를 모든 가능한 번역에 대해 계산하여, 위치별로 효율적으로 분해 가능하도록 한다.
목적어 토큰이 각 위치에서 독립적이라고 가정하고 NAT 출력 분포 위에 윈도우를 슬라이딩하여 BoN을 효율적으로 계산한다.
BoN 손실을 NAT의 BoN과 참조 BoN 간의 BoN-L1 거리로 제시하되, 참조 BoN의 희소성과 BoN-θ가 많은 가능한 번역을 합산한다는 사실을 활용한다.
학습 목표를 BoN-FT(BoN 파인튜닝), BoN-Joint(CE와 BoN 손실의 α 가중 합), BoN-Joint+FT(BoN-Joint 후 BoN 파인튜닝)로 formulate한다.
n-gram 크기(n=1..4)와 α 값을 실험하여 BLEU 및 전반적 성능과의 상관관계를 연구한다.

실험 결과

연구 질문

RQ1BoN 기반 시퀀스 수준 목표가 NAT의 번역 품질과의 상관관계에서 교차 엔트로피보다 더 잘 나타나는가?
RQ2BoN 학습이 특히 더 긴 문장에서 과번역 및 미번역, 반복 토큰과 같은 일반적인 NAT 오류를 감소시키는가?
RQ3NAT에서 BoN과 CE를 함께 최적화하는 목표가 BoN 만으로 파인튜닝하는 것보다 BLEU 이득 및 학습 속도 측면에서 어떤 차이가 있는가?
RQ4다른 n-gram 크기가 NAT에서 BoN의 효과에 어떤 영향을 주는가?

주요 결과

BoN 기반 목표가 단어 수준 교차 엔트로피보다 번역 품질과의 상관관계를 높이며, 특히 긴 문장에서 더 높은 상관성을 보인다.
BoN-FT는 학습 속도를 빠르게 하고 NAT-Base보다 성능을 향상시키며, BLEU 기준으로 Reinforce-NAT를 능가하는 경우가 많고 학습 속도는 훨씬 빠르다.
BoN-Joint는 BoN-FT보다 BLEU를 크게 개선하며, BoN-Joint+FT는 가장 큰 이득을 얻는다(예: WMT14 En↔De에서 약 5.0 BLEU, WMT16 En↔Ro에서 약 2.5 BLEU의 설정에서).
BoN이 1이 아닌 경우(특히 n=2)가 상관관계와 BLEU 이득을 1보다 더 잘 제공하여 짧은 순차 의존성 모델링의 중요성을 시사한다.
BoN 방법은 특히 긴 문장에서 반복 토큰 및 과수정을 줄이고, 후처리 분석에서 이를 확인할 수 있다.
BoN-Joint는 일부 베이스라인보다 더 빨리 수렴하고 differentiable BoN 목표로 인해 학습 속도가 경쟁력 있게 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.