QUICK REVIEW

[논문 리뷰] On Using Very Large Target Vocabulary for Neural Machine Translation

Sébastien Jean, Kyunghyun Cho|arXiv (Cornell University)|2014. 12. 05.

Natural Language Processing Techniques인용 수 56

한 줄 요약

이 논문은 신경 기계 번역(NMT) 모델이 학습 복잡도를 증가시키지 않고도 매우 큰 대상 어휘를 사용할 수 있도록 하는 중요도 표본 추출 기반 학습 방법을 제안한다. 출력 확률 분포의 정규화 항을 근사화함으로써, 전체 또는 자르기된 어휘를 사용한 효율적인 학습과 디코딩을 가능하게 하며, WMT’14 영어-프랑스어 및 영어-독일어 번역 작업에서 최신 기준 BLEU 점수를 달성하여 이전의 단일 모델 NMT 시스템보다 최대 1 BLEU 포인트 높은 성능을 보였다.

ABSTRACT

Neural machine translation, a recently proposed approach to machine translation based purely on neural networks, has shown promising results compared to the existing approaches such as phrase-based statistical machine translation. Despite its recent success, neural machine translation has its limitation in handling a larger vocabulary, as training complexity as well as decoding complexity increase proportionally to the number of target words. In this paper, we propose a method that allows us to use a very large target vocabulary without increasing training complexity, based on importance sampling. We show that decoding can be efficiently done even with the model having a very large target vocabulary by selecting only a small subset of the whole target vocabulary. The models trained by the proposed approach are empirically found to outperform the baseline models with a small vocabulary as well as the LSTM-based neural machine translation models. Furthermore, when we use the ensemble of a few models with very large target vocabularies, we achieve the state-of-the-art translation performance (measured by BLEU) on the English->German translation and almost as high performance as state-of-the-art English->French translation system.

연구 동기 및 목표

높은 학습 및 디코딩 복잡도로 인해 신경 기계 번역(NMT) 모델이 큰 대상 어휘를 처리하는 데에 한계가 존재하는 문제를 해결하기 위해.
완전한 큰 대상 어휘를 사용할 때에도 저비용의 계산을 유지할 수 있는 학습 알고리즘을 개발하기 위해.
추론 중에 전체 어휘에서 작은 부분집합만 선택하여 효율적인 디코딩을 가능하게 하기 위해.
표준 번역 벤치마크에서 큰 어휘로 학습된 모델가 제한된 어휘로 학습된 모델보다 성능이 뛰어나지 않는지 경험적으로 평가하기 위해.

제안 방법

학습 중 전체 대상 어휘에 대한 확률을 계산할 필요 없이 출력 확률 분포의 정규화 상수를 근사하기 위해 편향된 중요도 표본 추출을 사용한다.
중요도 표본 추출 방식은 모델의 현재 예측 기반으로 제안 분포를 사용하여 모델 파라미터에 대한 로그우도의 기울기를 추정한다.
학습 목표는 전체 소프트맥스의 스토하스틱 근사를 사용하도록 수정되어, 계산 비용을 작은 대상 단어 부분집합 수준으로 낮춘다.
추론 중에는 각 소스 문장에 대해 크기가 K'인 동적 후보 목록을 전체 어휘에서 가능도 점수 기반으로 선택하여 디코딩을 수행한다.
모델 아키텍처는 Bahdanau 등(2014)의 주의 기반 인코더-디코더 프레임워크를 따르며, 큰 어휘로의 학습을 지원하기 위해 출력층에 수정을 가한다.
다수의 소스 문장에 대해 공통 후보 목록을 사전에 계산하여 각 문장의 재계산 오버헤드를 줄이고, 기준 모델에 가까운 디코딩 속도를 유지한다.

실험 결과

연구 질문

RQ1매우 큰 대상 어휘를 사용할 때 학습 복잡도가 증가하지 않도록 NMT 모델을 효율적으로 학습시킬 수 있는가?
RQ2제한된 어휘를 사용하는 모델에 비해 더 큰 대상 어휘를 사용할 경우 번역 성능이 향상되는가?
RQ3선택적 후보 표본 추출을 통해 전체 또는 거의 전체 대상 어휘를 사용할 때 디코딩을 효율적으로 수행할 수 있는가?
RQ4표준 벤치마크인 WMT’14에서 중요도 표본 추출을 사용해 학습한 모델의 성능이 최신 기준 시스템과 비교해 어떻게 되는가?
RQ5추론 시의 대상 어휘 크기 선택이 학습 시 사용된 어휘 크기와 관련이 있는가?

주요 결과

제안된 방법은 WMT’14 영어-프랑스어 번역 작업에서 BLEU 점수 38.3을 기록하여 Luong 등(2014)이 보고한 최고의 단일 모델 NMT 시스템보다 약 1 BLEU 포인트 높은 성능을 보였다.
영어-독일어 작업에서는 최고 성능 모델이 BLEU 점수 21.59를 기록하여 Buck 등(2014)에서 보고한 이전 최고 기록인 20.67을 초월했다.
매우 큰 대상 어휘를 사용한 앙상블 모델는 WMT’14 영어-프랑스어 작업에서 최고 성능 시스템과 0.3 BLEU 포인트 이내의 성능을 달성했다.
여러 문장 간에 공통 후보 목록을 사용함으로써 디코딩 속도를 기준 수준에 가깝게 유지하여, 근본적인 효율성을 유지했다.
τ = 30,000로 학습하고 K = 50,000개 후보로 테스트한 모델는 K' = 1일 때보다 0.2 BLEU 포인트 향상된 성능을 보였으며, 이는 훈련 어휘가 클 경우 더 큰 후보 집합이 성능 향상에 기여함을 시사한다.
훈련과 추론 시의 어휘 크기 간의 정렬이 성능에 민감하게 작용하며, 두 크기가 유사할 때 가장 좋은 결과를 얻었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.