[논문 리뷰] Syntax-Directed Attention for Neural Machine Translation
논문은 구문-방향 주의력(SDAtt)을 도입하여 구문 거리 제약으로 로컬 주의력을 보강하고, 전역 맥락과 구문-지시 로컬 맥락을 결합한 이중 맥락 NMT 아키텍처를 제시하여 중국-영문(ZH-EN)과 영어-독일어(EN-DE) 번역에서 강력한 baselines 대비 개선을 달성한다.
Attention mechanism, including global attention and local attention, plays a key role in neural machine translation (NMT). Global attention attends to all source words for word prediction. In comparison, local attention selectively looks at fixed-window source words. However, alignment weights for the current target word often decrease to the left and right by linear distance centering on the aligned source position and neglect syntax-directed distance constraints. In this paper, we extend local attention with syntax-distance constraint, to focus on syntactically related source words with the predicted target word, thus learning a more effective context vector for word prediction. Moreover, we further propose a double context NMT architecture, which consists of a global context vector and a syntax-directed context vector over the global attention, to provide more translation performance for NMT from source representation. The experiments on the large-scale Chinese-to-English and English-to-Germen translation tasks show that the proposed approach achieves a substantial and significant improvement over the baseline system.
연구 동기 및 목표
- NMT에서 선형 거리(local) 주의의 한계를 구문 거리 제약으로 보완하려는 동기 부여 및 문제 제기
- 의존 트리로부터 도출된 구문 거리 제약 마스크(SDC)를 제시하여 주의의 방향을 안내
- SDC를 이용해 구문-지시 맥락 벡터를 계산하는 구문-지시 주의력(SDAtt) 도입
- 전역 맥락과 구문-지시 로컬 맥락을 결합하는 이중 맥락 NMT 아키텍처 제시
- ZH-EN 및 EN-DE 대규모 태스크에서 평가하고 강력한 baselines 대비 개선을 입증
제안 방법
- 의존 트리로부터 학습된 마스크 행렬 M을 통해 로컬 주의 확장을 구현
- M[p_i]를 사용한 구문 거리에 대한 가우시안으로 정렬 점수 e_ij를 계산하고 n-그램 SDAtt에 대해 alpha^{s_n}_{ij}를 산출
- alpha^{s_n}_{ij}로 가중된 h_j에서 구문-지시 맥락 벡터 c^s_i를 파생시키고 단어 예측에 사용
- SDAtt를 전역 맥 context 벡터 c^g_i를 포함하는 이중 맥 context 아키텍처에 통합하여 P(y_i|y_<i,x,T) = softmax(L_o tanh(L_w E_y[y_{i-1}] + L_d s_i + L_cg c^g_i + L_cs c^s_i))를 얻음
- Nematus로 중국어-영문(ZH-EN)과 영어-독일어(EN-DE) 태스크를 학습/평가하고, 의존 트리는 Stanford 파서를 사용하며 어휘 상한 50k, 최대 80토큰, ADADELTA 최적화 사용
- PBSMT, GlobalAtt, LocalAtt, FlexibleAtt, Chen et al. 2017 baselines와의 비교
실험 결과
연구 질문
- RQ1구문 거리에 대한 정보가 선형 거리 제약을 넘어 주의 기반 NMT의 성능을 향상시킬 수 있는가?
- RQ2구문-지시 주의 메커니즘이 표준 Global/Local/Flexible 주의 베이스라인보다 더 나은 번역 품질을 제공하는가?
- RQ3구문-지시 로컬 맥 context를 기존의 글로벌 맥 context와 결합하는 이중 맥(context)이 추가 이득을 주는가?
- RQ4SDAtt는 서로 다른 유형의 언어쌍(ZH-EN 및 EN-DE)과 문장 길이에 걸쳐 어떤 성능 차이를 보이는가?
주요 결과
- SDAtt는 ZH-EN에서 GlobalAtt 대비 평균적으로 BLEU 포인트 1.32 개선
- SDAtt는 ZH-EN에서 LocalAtt와 FlexibleAtt 대비 평균적으로 BLEU 포인트 0.97 및 1.04 개선
- SDAtt는 ZH-EN에서 Chen et al. 2017 대비 평균적으로 BLEU 포인트 0.47 개선
- EN-DE에서도 SDAtt가 ZH-EN과 유사한 개선을 보여 서로 다른 언어 쌍에서 로버스트함을 시사
- 이중 맥 context + SDAtt 구성이 단일 맥 context 변형보다 추가 이득을 주며, 예를 들어 +SDAtt가 +LocalAtt 및 +FlexibleAtt 대비 ZH-EN에서 큰 격차의 이득 제공
- SDAtt는 다양한 문장 길이에서도 baselines보다 더 높은 BLEU 점수를 유지, 긴 문장에서도 우수함을 보임
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.