Skip to main content
QUICK REVIEW

[논문 리뷰] Levenshtein Transformer

Jiatao Gu, Changhan Wang|arXiv (Cornell University)|2019. 05. 27.
Natural Language Processing Techniques참고 문헌 19인용 수 186
한 줄 요약

Levenshtein Transformer (LevT) 는 삽입과 삭제 연산을 이중 정책, 모방 학습 프레임워크와 결합하여 유연하고 부분적으로 자기회귀적인 시퀀스 생성 및 개선을 가능하게 하며, 표준 트랜스포머에 비해 효율성 향상을 제공합니다.

ABSTRACT

Modern neural sequence generation models are built to either generate tokens step-by-step from scratch or (iteratively) modify a sequence of tokens bounded by a fixed length. In this work, we develop Levenshtein Transformer, a new partially autoregressive model devised for more flexible and amenable sequence generation. Unlike previous approaches, the atomic operations of our model are insertion and deletion. The combination of them facilitates not only generation but also sequence refinement allowing dynamic length changes. We also propose a set of new training techniques dedicated at them, effectively exploiting one as the other's learning signal thanks to their complementary nature. Experiments applying the proposed model achieve comparable performance but much-improved efficiency on both generation (e.g. machine translation, text summarization) and refinement tasks (e.g. automatic post-editing). We further confirm the flexibility of our model by showing a Levenshtein Transformer trained by machine translation can straightforwardly be used for automatic post-editing.

연구 동기 및 목표

  • 삽입 및 삭제 연산에 기반한 새로운 시퀀스 생성 모델을 도입한다.
  • MT 및 텍스트 요약에서 Transformer 기반 모델 대비 경쟁력 있거나 더 나은 성능을 달성한다.
  • 병렬화 가능한 개선 단계로 효율적인 디코딩을 가능하게 하여 속도 향상을 달성한다.
  • 생성과 개선을 하나의 모델에서 통합하여 포스트-편집 및 편집형 작업을 지원한다.
  • 삽입과 삭제의 보완적 특성을 활용하는 이중 정책 모방 학습 알고리즘을 제안한다.

제안 방법

  • 모델은 Transformer 백본에 세 개의 헤드(삭제, 자리표시 삽입, 토큰 삽입)를 사용하며 기본적으로 가중치를 공유한다.
  • 시퀀스 편집은 반복(iteration)으로 진행된다: 토큰 삭제, 자리표시 삽입, 자리표시를 새로운 토큰으로 교체를 한 번의 반복 내에서 모두 병렬로 수행한다.
  • 학습은 전문 정책(오라클 또는 증류된 교사)과의 모방 학습을 사용하여 삭제 및 삽입 결정의 로그 가능도(log-likelihood)를 최대화한다(두 가지 목표).
  • Roll-in 정책은 훈련 상태를 다양화하기 위해 노이즈나 적대적 출력을 도입한다(정답, 모델 출력, 전문가 수정의 혼합).
  • 추론은 수렴 또는 타임아웃까지 여러 개선 반복에 걸쳐 그리디 디코딩을 수행한다; 종료에는 루프 탐지 및 비어 있는 자리표시들에 대한 페널티가 포함된다.

실험 결과

연구 질문

  • RQ1삽입 및 삭제 연산을 하나의 통합 모델에서 결합하여 시퀀스를 효과적으로 생성하고 개선할 수 있는가?
  • RQ2편집 기반 시퀀스 생성기를 학습시키기 위한 이중 정책 모방 학습은 어떤 성능을 보이나?
  • RQ3LevT가 자기회귀 트랜스포머와 비슷한 생성 품질을 달성하면서 디코딩 효율성을 향상시키는가?
  • RQ4MT에서 학습된 LevT를 번역 포스트-에디팅에 바로 적용할 수 있는가?

주요 결과

DatasetMetricTransformerLevenshtein Transformer (best)
Ro-EnBLEU31.6733.26
En-DeBLEU26.8927.27
En-JaBLEU42.8643.68
GigawordROUGE-137.3137.87
GigawordROUGE-218.1018.92
GigawordROUGE-L34.6535.13
  • LevT는 기계 번역 및 텍스트 요약에서 Transformer 기본 모델과 동등하거나 더 나은 BLEU/ROUGE 점수를 달성한다.
  • LevT는 병렬화 가능한 개선 단계로 실제 디코딩 시간에서 약 5배까지 속도 향상을 제공한다.
  • 세 헤드 간의 가중치 공유가 일반적으로 도움이 되며, 삽입 관련 헤드가 공유 표현으로부터 이점을 얻는다.
  • 적대적 롤인(adversarial roll-ins)을 갖춘 이중 정책 모방 학습은 일반적인 DAE(Denoising Autoencoder) 스타일 설정을 넘어 학습 신호를 개선한다.
  • MT에서 학습된 LevT는 변경 없이 번역 포스트-에디팅에 적용 가능(제로샷)하며 PE 데이터로 미세 조정하면 추가로 성능이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.