QUICK REVIEW

[논문 리뷰] Constant-Time Machine Translation with Conditional Masked Language Models.

Marjan Ghazvininejad, Omer Levy|arXiv (Cornell University)|2019. 04. 19.

Natural Language Processing Techniques참고 문헌 7인용 수 35

한 줄 요약

이 논문은 조건부 마스킹 언어 모델링을 사용하여 목표 단어를 자동회귀적으로 예측하지 않고 일정한 시간 내에 반복적으로 낮은 신뢰도 예측을 개선함으로써 일정 시간 내에 기계 번역을 수행하는 모델을 제안한다. 자동회귀적 Transformer 성능의 92–95%를 달성하면서도 해독 속도가 훨씬 빠르며, 기존의 최고 성능 상수 시간 모델보다 평균 3 BLEU 이상 향상된다.

ABSTRACT

Most machine translation systems generate text autoregressively, by sequentially predicting tokens from left to right. We, instead, use a masked language modeling objective to train a model to predict any subset of the target words, conditioned on both the input text and a partially masked target translation. This approach allows for efficient iterative decoding, where we first predict all of the target words non-autoregressively, and then repeatedly mask out and regenerate the subset of words that the model is least confident about. By applying this strategy for a constant number of iterations, our model improves state-of-the-art performance levels for constant-time translation models by over 3 BLEU on average. It is also able to reach 92-95% of the performance of a typical left-to-right transformer model, while decoding significantly faster.

연구 동기 및 목표

자동회귀적 번역의 속도-성능 트레이드오프 문제를 해결하기 위해 일정 시간 내 추론을 가능하게 하기 위해.
동시에 토큰을 생성함으로써 저조도를 겪는 기존의 비자동회귀 번역 모델을 향상시키기 위해.
모델의 신뢰도에 기반해 예측을 반복적으로 개선하는 디코딩 전략을 개발하여 자동회귀적 생성 없이도 고품질 번역을 가능하게 하기 위해.
매우 더 빠른 추론 속도를 유지하면서도 상수 시간 모델 중 최고 성능을 달성하기 위해.

제안 방법

입력과 부분적으로 마스킹된 목표 문장을 조건으로 하여 목표 단어의 부분 집합을 예측하는 마스킹 언어 모델링 목적함수를 사용해 모델을 훈련한다.
디코딩을 시작할 때 모든 목표 토큰을 단일 단계 내에서 비자동회귀적으로 생성한다.
모델이 가장 낮은 신뢰도를 보이는 목표 단어의 부분집합을 식별하고 재생성한다.
번역 품질을 향상시키기 위해 고정된 일정한 수의 반복 단계 동안 개선 과정을 반복한다.
모델이 예측 중에 입력과 마스킹된 목표 문맥 양쪽 모두에 주목할 수 있도록 조건부 마스킹을 사용한다.
각 반복 단계에서 재예측할 토큰을 동적으로 선택하기 위해 모델의 신뢰도 추정치를 활용한다.

실험 결과

연구 질문

RQ1비자동회귀 모델이 반복적 개선 없이도 높은 번역 품질을 달성할 수 있는가?
RQ2모델의 신뢰도에 기반한 반복적 개선이 상수 시간 디코딩에서 번역 성능을 향상시키는가?
RQ3마스킹된 언어 모델링 목적함수는 빠른 속도 이점을 유지하면서 효과적인 비자동회귀 생성을 가능하게 하는가?
RQ4이 방법의 성능는 자동회귀적 Transformer와 이전의 상수 시간 모델과 비교해 어떻게 되는가?
RQ5고정된 수의 반복적 개선 단계를 사용할 때 추론 속도와 번역 품질 사이의 트레이드오프는 어떠한가?

주요 결과

제안된 모델은 평균적으로 기존 최고 성능 상수 시간 번역 모델보다 3 BLEU 이상 향상시켰다.
표준 좌에서우로 Transformer 모델의 92–95% 성능을 달성하면서도 해독 속도가 훨씬 빠르게 구현되었다.
신뢰도 추정치에 기반한 반복적 개선 전략은 고정된 수의 단계 내에서 번역 품질을 효과적으로 향상시켰다.
모델은 다양한 번역 벤치마크에서 뛰어난 성능을 보이며 이전의 비자동회귀 접근 방식을 모두 능가했다.
조건부 마스킹 언어 모델링의 사용은 고품질 출력을 얻을 수 있는 효과적인 비자동회귀 생성을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.