QUICK REVIEW

[논문 리뷰] Syntax-Directed Attention for Neural Machine Translation

Kehai Chen, Rui Wang|arXiv (Cornell University)|2017. 11. 12.

Natural Language Processing Techniques인용 수 58

한 줄 요약

논문은 구문-방향 주의력(SDAtt)을 도입하여 구문 거리 제약으로 로컬 주의력을 보강하고, 전역 맥락과 구문-지시 로컬 맥락을 결합한 이중 맥락 NMT 아키텍처를 제시하여 중국-영문(ZH-EN)과 영어-독일어(EN-DE) 번역에서 강력한 baselines 대비 개선을 달성한다.

ABSTRACT

Attention mechanism, including global attention and local attention, plays a key role in neural machine translation (NMT). Global attention attends to all source words for word prediction. In comparison, local attention selectively looks at fixed-window source words. However, alignment weights for the current target word often decrease to the left and right by linear distance centering on the aligned source position and neglect syntax-directed distance constraints. In this paper, we extend local attention with syntax-distance constraint, to focus on syntactically related source words with the predicted target word, thus learning a more effective context vector for word prediction. Moreover, we further propose a double context NMT architecture, which consists of a global context vector and a syntax-directed context vector over the global attention, to provide more translation performance for NMT from source representation. The experiments on the large-scale Chinese-to-English and English-to-Germen translation tasks show that the proposed approach achieves a substantial and significant improvement over the baseline system.

연구 동기 및 목표

NMT에서 선형 거리(local) 주의의 한계를 구문 거리 제약으로 보완하려는 동기 부여 및 문제 제기
의존 트리로부터 도출된 구문 거리 제약 마스크(SDC)를 제시하여 주의의 방향을 안내
SDC를 이용해 구문-지시 맥락 벡터를 계산하는 구문-지시 주의력(SDAtt) 도입
전역 맥락과 구문-지시 로컬 맥락을 결합하는 이중 맥락 NMT 아키텍처 제시
ZH-EN 및 EN-DE 대규모 태스크에서 평가하고 강력한 baselines 대비 개선을 입증

제안 방법

의존 트리로부터 학습된 마스크 행렬 M을 통해 로컬 주의 확장을 구현
M[p_i]를 사용한 구문 거리에 대한 가우시안으로 정렬 점수 e_ij를 계산하고 n-그램 SDAtt에 대해 alpha^{s_n}_{ij}를 산출
alpha^{s_n}_{ij}로 가중된 h_j에서 구문-지시 맥락 벡터 c^s_i를 파생시키고 단어 예측에 사용
SDAtt를 전역 맥 context 벡터 c^g_i를 포함하는 이중 맥 context 아키텍처에 통합하여 P(y_i|y_<i,x,T) = softmax(L_o tanh(L_w E_y[y_{i-1}] + L_d s_i + L_cg c^g_i + L_cs c^s_i))를 얻음
Nematus로 중국어-영문(ZH-EN)과 영어-독일어(EN-DE) 태스크를 학습/평가하고, 의존 트리는 Stanford 파서를 사용하며 어휘 상한 50k, 최대 80토큰, ADADELTA 최적화 사용
PBSMT, GlobalAtt, LocalAtt, FlexibleAtt, Chen et al. 2017 baselines와의 비교

실험 결과

연구 질문

RQ1구문 거리에 대한 정보가 선형 거리 제약을 넘어 주의 기반 NMT의 성능을 향상시킬 수 있는가?
RQ2구문-지시 주의 메커니즘이 표준 Global/Local/Flexible 주의 베이스라인보다 더 나은 번역 품질을 제공하는가?
RQ3구문-지시 로컬 맥 context를 기존의 글로벌 맥 context와 결합하는 이중 맥(context)이 추가 이득을 주는가?
RQ4SDAtt는 서로 다른 유형의 언어쌍(ZH-EN 및 EN-DE)과 문장 길이에 걸쳐 어떤 성능 차이를 보이는가?

주요 결과

SDAtt는 ZH-EN에서 GlobalAtt 대비 평균적으로 BLEU 포인트 1.32 개선
SDAtt는 ZH-EN에서 LocalAtt와 FlexibleAtt 대비 평균적으로 BLEU 포인트 0.97 및 1.04 개선
SDAtt는 ZH-EN에서 Chen et al. 2017 대비 평균적으로 BLEU 포인트 0.47 개선
EN-DE에서도 SDAtt가 ZH-EN과 유사한 개선을 보여 서로 다른 언어 쌍에서 로버스트함을 시사
이중 맥 context + SDAtt 구성이 단일 맥 context 변형보다 추가 이득을 주며, 예를 들어 +SDAtt가 +LocalAtt 및 +FlexibleAtt 대비 ZH-EN에서 큰 격차의 이득 제공
SDAtt는 다양한 문장 길이에서도 baselines보다 더 높은 BLEU 점수를 유지, 긴 문장에서도 우수함을 보임

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.