QUICK REVIEW

[논문 리뷰] Learning to Parse and Translate Improves Neural Machine Translation

Akiko Eriguchi, Yoshimasa Tsuruoka|arXiv (Cornell University)|2017. 02. 12.

Natural Language Processing Techniques참고 문헌 30인용 수 21

한 줄 요약

이 논문은 주어진 번역과 구문 분석 동작 예측을 동시에 학습함으로써 번역 품질을 향상시키는 하이브리드 신경 기계 번역 모델인 NMT+RNNG을 제안한다. 외부 파서를 사용해 학습 중에 번역과 구문 분석 동작 예측을 동시에 최적화함으로써, 추가적인 추론 비용 없이도 BLEU와 RIBES 점수를 크게 향상시켰으며, 특히 일본어-영어 및 러시아어-영어 언어 쌍에서 유의미한 성능 향상을 보였다.

ABSTRACT

There has been relatively little attention to incorporating linguistic prior to neural machine translation. Much of the previous work was further constrained to considering linguistic prior on the source side. In this paper, we propose a hybrid model, called NMT+RNNG, that learns to parse and translate by combining the recurrent neural network grammar into the attention-based neural machine translation. Our approach encourages the neural machine translation model to incorporate linguistic prior during training, and lets it translate on its own afterward. Extensive experiments with four language pairs show the effectiveness of the proposed NMT+RNNG.

연구 동기 및 목표

구문을 통해 언어적 사전 지식을 통합함으로써 신경 기계 번역 성능 향상 여부를 조사하는 것.
추론 시 외부 언어 도구가 필요로 하는 기존 방법의 한계를 해결하는 것.
번역과 문법적 분석 간의 다중 작업 학습을 통해 모델의 일반화 능력을 향상시키는 것.
학습 과정에서 암묵적으로 문법적 구조를 학습하는 통합형 엔드 투 엔드 트레이너블 모델을 개발하는 것.
다양한 문법적 복잡도를 가진 다양한 언어 쌍에서 제안된 방법의 효과성을 평가하는 것.

제안 방법

모델은 주어진 번역 토큰과 그들의 구문 분석 동작을 동시에 예측하기 위해 어텐션 기반 NMT 디코더와 순환 신경망 문법(RNNG)을 통합한다.
RNNG 구성 요소는 출력 토큰을 위한 버퍼, 문법적 구조를 위한 스택, 그리고 이전의 구문 분석 동작 기록을 포함하며, NMT와 RNNG 구성 요소 간에 공유된 단어 임베딩을 사용한다.
학습 중에 모델은 목표 번역의 가능도와 올바른 구문 분석 동작 순서의 가능도를 동시에 최대화하도록 최적화된다.
외부 의존성 파서(Andor et al., 2016)는 학습 중에 감독을 위해 골드 표준 구문 분석 동작을 제공하지만, 테스트 시에는 필요하지 않다.
추론 시에는 개발 세트에서 최적화된 범위를 가진 빔 서치를 사용하며, 학습에는 기울기 클리핑과 학습률 감소를 적용한 확률적 경사 하강법을 사용한다.
RNNG 디코더는 번역과 함께 의존성 구문 트리를 생성하며, EOS 토큰은 구문 트리에서 ROOT 노드로 간주된다.

실험 결과

연구 질문

RQ1구문 분석과 번역의 동시 학습이 신경 기계 번역 성능 향상에 기여하는가?
RQ2RNNG를 통한 문법적 구조 통합이 추론 시 외부 파서가 필요 없이도 번역 품질 향상에 기여하는가?
RQ3RNNG의 개별 구성 요소(버퍼, 스택, 동작 예측)가 전체 번역 성능에 기여하는 정도는 어떠한가?
RQ4다양한 문법적 구조를 가진 언어 쌍에서 제안된 방법의 성능 향상이 일관된가?
RQ5명시적인 언어적 특징 없이 다중 작업 학습을 통해 모델이 유용한 언어적 사전 지식을 암묵적으로 학습할 수 있는가?

주요 결과

NMT+RNNG 모델은 네 개 언어 쌍 중 세 개에서 통계적으로 유의미한 BLEU 향상을 기록했으며, JP-En에서 0.96 BLEU 포인트 향상(17.88에서 18.84)을 기록했다.
모델은 네 개 언어 쌍 모두에서 RIBES 점수를 향상시켰으며, JP-En에서 가장 높은 향상(72.25 vs. 71.27)을 기록하여 더 자연스럽고 적절한 번역을 구현했다.
제거 실험 결과, RNNG의 어떤 구성 요소도 제거하면 성능이 유의미하게 떨어졌으며, 특히 스택의 영향이 가장 컸다.
버퍼, 스택, 동작 예측의 세 구성 요소가 모두 존재할 때에만 최고의 성능을 기록했으며, 이는 세 구성 요소가 함께 필요하다는 것을 확인했다.
제안된 방법은 추론 시 추가 파rameter나 계산 비용 없이도 성능 향상을 달성했으며, 표준 NMT와 동일한 효율성을 유지했다.
qualitative 예시를 통해 모델은 정확한 의존성 구문 트리를 번역과 함께 생성하는 데 성공했으나, 소수의 오류(예: 잘못된 의존성 관계)가 관찰되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.