Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate

Dzmitry Bahdanau|arXiv (Cornell University)|2014. 09. 01.
Natural Language Processing Techniques참고 문헌 22인용 수 14,567
한 줄 요약

본 논문은 주의 기반 신경 기계 번역 모델(RNNsearch)을 도입하여 정렬과 번역을 함께 학습하고, 단일 고정 길이 벡터를 각 스텝의 컨텍스트 벡터로 대체한 뒤, 양방향 주석으로부터 얻은 컨텍스트 벡터를 사용하여 별도의 구문 기반 시스템에 의존하지 않고도 영어-프랑스어 번역에서 경쟁력을 달성한다.

ABSTRACT

Neural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical machine translation, the neural machine translation aims at building a single neural network that can be jointly tuned to maximize the translation performance. The models proposed recently for neural machine translation often belong to a family of encoder-decoders and consists of an encoder that encodes a source sentence into a fixed-length vector from which a decoder generates a translation. In this paper, we conjecture that the use of a fixed-length vector is a bottleneck in improving the performance of this basic encoder-decoder architecture, and propose to extend this by allowing a model to automatically (soft-)search for parts of a source sentence that are relevant to predicting a target word, without having to form these parts as a hard segment explicitly. With this new approach, we achieve a translation performance comparable to the existing state-of-the-art phrase-based system on the task of English-to-French translation. Furthermore, qualitative analysis reveals that the (soft-)alignments found by the model agree well with our intuition.

연구 동기 및 목표

  • 인코더–디코더 NMT 아키텍처에서 소스 문장을 고정 길이 벡터로 인코딩하는 병목 현상을 동기적으로 극복하려는 동기를 제시한다.
  • 디코딩 중에 소스 위치를 동적으로 주목(soft alignment)하도록 모델을 도입한다.
  • 함께 학습된 정렬이 번역 품질을 개선한다는 점, 특히 긴 문장에서 더 뚜렷한 효과를 보이는지 보여준다.
  • 단일 모델을 사용해 영어-프랑스어 번역 성능을 구문 기반 시스템과 비교해 경쟁력을 입증한다.

제안 방법

  • 양방향 RNN 인코더를 사용해 각 소스 단어를 양 방향의 맥락으로 주석한다.
  • 디코더는 매 스텝마다 모든 주석의 가중합으로 컨텍스트 벡터를 계산하며, 가중치는 정렬 모델에 의해 정의된다.
  • y_i|y_1..y_{i-1}, x를 각 대상 단어마다 서로 다른 컨텍스트 c_i로 정의하여 소스에 대한 소프트 어텐션을 가능하게 한다.
  • 주의 메커니즘을 통한 역전파로 조건부 가능도 p(y|x)를 최대화하도록 전체 모델을 엔드-투-엔드로 학습한다.
  • 정렬 모델 a(s_{i-1}, h_j)로 신경망을 사용해 소프트맥스를 통해 α_{ij}를 생성한다.
  • RNN에는 맥스아웃 네트워크와 게이트드 순환 유닛을 사용하고, 미니배치에서 SGD/Adadelta로 학습한다.

실험 결과

연구 질문

  • RQ1고정 길이 컨텍스트 벡터를 동적 어텐션 메커니즘으로 대체하면 번역 품질이 향상되는가?
  • RQ2정렬과 번역의 동시 학습이 언어학적 직관과 일치하는 의미 있는 소프트 정렬을 생성하는가?
  • RQ3어텐션 기반 모델은 영어-프랑스어 번역에서 인코더–디코더 기준선 및 전통 구문 기반 시스템에 비해 어떻게 성능이 나타나며, 특히 긴 문장에서의 차이는 어떻게 되는가?

주요 결과

모델전체UNK 없음
RNNencdec-3013.9324.19
RNNsearch-3021.5031.44
RNNencdec-5017.8226.71
RNNsearch-5026.7534.16
RNNsearch-50 ⋆28.4536.15
Moses33.3035.63
  • 제안된 RNNsearch는 모든 설정에서 기존 RNN 인코더–디코더를 능가한다.
  • RNNsearch-50은 단어가 알려진 문장에서 Moses(구문 기반 시스템)와 유사한 BLEU 점수를 달성한다.
  • 주목 메커니즘은 문장 길이에 대한 강건성을 높이며, RNNsearch-50은 긴 문장에서도 성능 저하가 나타나지 않는다.
  • 정성적 분석은 모델이 소스-타겟 단어 간의 의미 있는 소프트 정렬을 발견하며 이는 언어학적 기대에 부합한다.
  • 긴 문장일수록 고정 벡터 인코더와 어텐션 기반 모델 간의 성능 격차가 커지며, RNNsearch는 RNNencdec가 저하되는 부분에서도 번역 품질을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.