QUICK REVIEW

[논문 리뷰] Non-Autoregressive Machine Translation with Disentangled Context Transformer

Jungo Kasai, James Cross|arXiv (Cornell University)|2020. 01. 15.

Natural Language Processing Techniques참고 문헌 43인용 수 51

한 줄 요약

이 논문은 비자 autoregressive 변환기(NAT)용 DisEntangled Context (DisCo) 트랜스포머를 도입하고, attention-masking 목표와 평행 Easy-First 추론으로 모든 토큰을 동시에 생성하면서 디코딩 단계를 줄이고 BLEU를 경쟁력 있게 유지한다.

ABSTRACT

State-of-the-art neural machine translation models generate a translation from left to right and every step is conditioned on the previously generated tokens. The sequential nature of this generation process causes fundamental latency in inference since we cannot generate multiple tokens in each sentence in parallel. We propose an attention-masking based model, called Disentangled Context (DisCo) transformer, that simultaneously generates all tokens given different contexts. The DisCo transformer is trained to predict every output token given an arbitrary subset of the other reference tokens. We also develop the parallel easy-first inference algorithm, which iteratively refines every token in parallel and reduces the number of required iterations. Our extensive experiments on 7 translation directions with varying data sizes demonstrate that our model achieves competitive, if not better, performance compared to the state of the art in non-autoregressive machine translation while significantly reducing decoding time on average. Our code is available at https://github.com/facebookresearch/DisCo.

연구 동기 및 목표

뉴럴 기계 번역에서 좌→우 autoregressive 디코딩에서 벗어나 디코딩 지연 시간을 줄이는 것을 동기 부여합니다.
DisEntangled Context (DisCo) 트랜스포머를 제안하여 임의의 다른 토큰 부분집합에 조건부로 각 목표 토큰을 예측합니다.
반복 기반 수렴으로 모든 토큰을 병렬로 정제하는 병렬 Easy-First 추론 알고리즘을 개발합니다.
DisCo가 다양한 언어 방향과 데이터 크기에서 디코딩 시간 대폭 감소와 함께 경쟁력 있는 BLEU를 달성함을 보입니다.

제안 방법

타깃 위치를 예측할 때 관찰된 토큰만 attend 하도록 주의 마스킹을 사용하는 DisCo 트랜스포머를 도입합니다.
DisCo 목표를 정의합니다: Y_n은 X와 다른 타깃 토큰의 임의 부분집합인 Y_obs^n에 조건부로 주어진다를 예측하여 모든 위치의 조건부 확률을 단일 패스에서 계산할 수 있도록 합니다.
이전 레이어에서 키/값을 컨텍스트로부터 분리(discontextualizing)하여 누출을 피하면서 DisCo 층을 쌓는 방법을 설명합니다.
관찰된 토큰의 임의 부분집합으로 학습하고 병렬 디코딩을 가능하게 하는 길이 예측 손실을 포함합니다.
각 반복에서 모든 위치를 예측하고 불확실성이 증가하는 순서대로 토큰을 업데이트하는 병렬 Easy-First 추론을 제안하여 가변적인 반복 수를 가능하게 합니다.
강력한 autoregressive 교사와 표준 트랜스포머 하이퍼파라미터로 증류를 활용하고, 여러 WMT 방향에서 BLEU로 평가합니다.

실험 결과

연구 질문

RQ1비-autoregressive Transformer가 disentangled context를 사용하여 최첨단 NAT 및 autoregressive 모델과 비교해 경쟁력 있는 BLEU를 달성할 수 있는가?
RQ2DisCo 목표가 효율적인 단일 패스 조건부화 및 효과적인 병렬 디코딩을 가능하게 하는가?
RQ3병렬 Easy-First 추론은 BLEU와 반복 횟수 측면에서 mask-predict와 데이터 크기에 따라 어떻게 비교되는가?
RQ4데이터 크기와 증류가 DisCo의 성능에 baselines 대비 어떤 영향을 주는가?
RQ5NAT의 WMT 작업에서 다양한 디코딩 전략이 속도와 품질에 어떤 차이를 만드는가?

주요 결과

모델	en→de BLEU	de→en BLEU	en→ro BLEU	ro→en BLEU	대략 Steps(approx)
Gu et al. (2018) (CMLM)	—	—	—	—	1
Wang et al. (2019) (n=9)	—	—	—	—	1
Li et al. (2019) (n=9)	—	—	—	—	1
Ma et al. (2019) (n=30)	25.31	1	30.68	1	1
Sun et al. (2019) (n=19)	26.80	1	30.04	–	1
Ran et al. (2019)	26.51	1	31.13	1	1
Shu et al. (2020) (n=50)	25.1	–	–	–	1
Our Implementations (CMLM+Mask-Predict, 4 steps)	26.73	4	30.75	4	4
Our Implementations (CMLM+Mask-Predict,10 steps)	27.39	10	31.24	10	10
DisCo + Mask-Predict (4 steps)	25.83	4	32.22	4	4
DisCo + Mask-Predict (10 steps)	27.06	10	32.92	10	10
DisCo + Easy-First (EN→DE)	27.34	4.23	33.22	3.29	4.82
DisCo + Easy-First (EN→RO)	—	—	33.25	—	3.10

병렬 Easy-First를 갖춘 DisCo는 CMLM 기반 Mask-Predict보다 경쟁력 있거나 더 나은 BLEU를 달성하면서 훨씬 적은 반복 수를 사용합니다(예: en→de 4.82 단계; ro→en 3.10 단계).
EN-DE / EN-RO에서 DisCo+Easy-First는 강력한 NAT 기준선과 비교해 BLEU 점수에 필적하거나 더 나으며, 데이터가 풍부할수록 크게 이득이 있습니다(EN-ZH, EN-FR).
증류는 비 autoregressive 모델에 일관되게 이익을 주며, 같은 추론 설정에서 DisCo가 CMLM보다 더 큰 이득을 얻습니다.
디코딩 속도는 벽시계 시간에서 상당한 이득을 보여주며, 평균 반복 수는 속도 향상과 상관관계를 보이며, DisCo는 방향 및 설정에 따라 autoregressive 기준선 대비 약 4–5x의 반복 감소를 달성합니다.
contextless keys/values를 사용하는 DisCo는 autoregressive 설정에서도 성능을 보존할 수 있어 접근 방식의 더 넓은 적용 가능성을 시사합니다.
training과 inference를 더 가깝게 맞춘 변형(easy-first training)은 random-sampling training보다 성능이 앞서지 못했습니다. 이는 무작위 마스킹이 유용한 탐색을 제공함을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.