Skip to main content
QUICK REVIEW

[논문 리뷰] Deconvolution-Based Global Decoding for Neural Machine Translation

Junyang Lin, Xu Sun|arXiv (Cornell University)|2018. 06. 01.
Natural Language Processing Techniques참고 문헌 42인용 수 7
한 줄 요약

이 논문은 신경 기계 번역(NMT)을 위한 탈구획 기반 전역 복원 방법을 제안하며, 자동회귀적이고 왼쪽에서 오른쪽으로의 생성 방식의 한계를 극복하고 전체 목표 시퀀스의 구조적 맥락을 고려하여 단어 생성을 조건화함으로써 번역 품질을 향상시킨다. 실험 결과, 최첨단 모델을 능가하며 반복을 줄이고 다양한 문장 길이에 걸쳐 잘 일반화됨을 보였다.

ABSTRACT

A great proportion of sequence-to-sequence (Seq2Seq) models for Neural Machine Translation (NMT) adopt Recurrent Neural Network (RNN) to generate translation word by word following a sequential order. As the studies of linguistics have proved that language is not linear word sequence but sequence of complex structure, translation at each step should be conditioned on the whole target-side context. To tackle the problem, we propose a new NMT model that decodes the sequence with the guidance of its structural prediction of the context of the target sequence. Our model generates translation based on the structural prediction of the target-side context so that the translation can be freed from the bind of sequential order. Experimental results demonstrate that our model is more competitive compared with the state-of-the-art methods, and the analysis reflects that our model is also robust to translating sentences of different lengths and it also reduces repetition with the instruction from the target-side context for decoding.

연구 동기 및 목표

  • 자동회귀적 복원 방식이 단어를 순차적으로 생성하고 전체적인 구조적 맥락을 忽시하는 NMT의 한계를 해결하기 위해.
  • 목표 시퀀스의 전체 구조를 고려하여 각 생성 단계를 조건화하여 번역 품질을 향상시키기 위해.
  • 생성된 번역문의 반복을 줄이고 다양한 문장 길이에 걸쳐 강건성을 향상시키기 위해.

제안 방법

  • 복원 과정 중 전체 목표 시퀀스의 구조적 표현을 예측하기 위한 탈구획 기반 메커니즘을 제안한다.
  • 예측된 구조적 맥락을 각 단어 생성 단계의 전역 조건 신호로 사용한다.
  • 지속적인 왼쪽에서 오른쪽으로의 의존성 외부로도 유도하기 위해 구조 예측을 복원 과정에 통합한다.
  • 전체 목표 측 구조를 활용하여 단어 선택을 안내하는 맥락 인식 복원 전략을 구현한다.
  • 구조적 사전 지식을 통합하여 순차적 순서에 민감도를 낮추도록 복원 과정을 개선한다.

실험 결과

연구 질문

  • RQ1목표 시퀀스의 전역적 구조적 맥락이 자동회귀적 복원을 초월하여 신경 기계 번역 품질을 향상시킬 수 있는가?
  • RQ2구조 예측은 다양한 문장 길이에 걸쳐 복원의 강건성에 어떤 영향을 미치는가?
  • RQ3제안된 방법이 생성된 번역문에서 반복을 어느 정도 줄일 수 있는가?

주요 결과

  • 제안된 모델은 최첨단 NMT 방법들과 경쟁 가능한 성능을 달성한다.
  • 다양한 길이의 문장을 번역할 때 모델이 더 강건한 성능을 보인다.
  • 목표 측 구조적 맥락의 안내로 인해 번역문의 반복 현상이 크게 감소한다.
  • 탈구획 기반의 구조 예측은 전역 맥락 인식을 가능하게 하여 복원 품질을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.