QUICK REVIEW

[논문 리뷰] Syntax-Infused Transformer and BERT models for Machine Translation and Natural Language Understanding

Dhanasekar Sundararaman, Vivek Subramanian|arXiv (Cornell University)|2019. 11. 10.

Natural Language Processing Techniques참고 문헌 18인용 수 37

한 줄 요약

논문은 Transformer와 BERT에 명시적 구문 특징(POS, 격, 부분어 위치)을 도입하여 영어-독일어 번역과 GLUE 작업의 성능을 향상시키며, 특히 데이터가 제한된 상황에서 BLEU 증가를 및 여러 GLUE 작업에서 개선을 보인다.

ABSTRACT

Attention-based models have shown significant improvement over traditional algorithms in several NLP tasks. The Transformer, for instance, is an illustrative example that generates abstract representations of tokens inputted to an encoder based on their relationships to all tokens in a sequence. Recent studies have shown that although such models are capable of learning syntactic features purely by seeing examples, explicitly feeding this information to deep learning models can significantly enhance their performance. Leveraging syntactic information like part of speech (POS) may be particularly beneficial in limited training data settings for complex models such as the Transformer. We show that the syntax-infused Transformer with multiple features achieves an improvement of 0.7 BLEU when trained on the full WMT 14 English to German translation dataset and a maximum improvement of 1.99 BLEU points when trained on a fraction of the dataset. In addition, we find that the incorporation of syntax into BERT fine-tuning outperforms baseline on a number of downstream tasks from the GLUE benchmark.

연구 동기 및 목표

신경 NLP 모델에 명시적 구문 정보를 integration하여 번역 및 이해를 개선하려는 동기를 제시한다.
구문 특징으로 임베딩을 보강하여 구문-infused Transformer를 개발한다.
미세 조정 동안 POS 기반 구문 임베딩을 도입하여 BERT에 대한 접근 방식을 확장한다.
구문 주입이 EN-DE 번역 및 GLUE 벤치마크 작업에 미치는 영향을 평가한다.
구문 정보가 모델 동작에 미치는 영향을 해석하기 위해 주의 패턴을 분석한다.

제안 방법

Transformer 인코더 입력을 trainable 구문 임베딩(POS, 격, 부분어 위치)을 부분어 임베딩과 연결(concatenating) 또는 합산하여 수정한다.
basel ine과 유사한 설정(6개의 인코더/디코더 층, 8-헤드 어텐션; 512-차원 임베딩에 20-차원 특징 임베딩)을 사용하여 구문-infused Transformer를 학습한다.
POS에서 파생된 구문 특징, 격, 부분어 위치 태그를 적용하여 결합된 토큰 표현을 만들어 Transformer에 입력한다.
고정된 방식으로 차원을 유지하기 위해 더하기 또는 연결(concatenation)으로 토큰 임베딩에 POS 임베딩을 추가하여 BERT를 Adapt하고 GLUE 벤치마크 작업을 평가한다.
EN-DE 번역(WMT ’14)과 GLUE 벤치마크에서 모델을 학습 및 평가하고, 베이스라인과 비교한다.
구문이 번역에서의 교차-토큰 어텐션에 미치는 영향을 시각화하기 위한 질적 어텐션 시각화를 제공한다.

실험 결과

연구 질문

RQ1구문 주입이 Transformer 임베딩에 대해 번역 품질(BLEU)을 개선하는가? 특히 학습 데이터가 제한된 경우에 더 두드러지는가?
RQ2POS, 격, 부분어 위치 특징이 어텐션 패턴과 번역 결과에 어떤 영향을 미치는가?
RQ3POS를 BERT 미세조정에 통합하면 BERT BASE 대비 GLUE 작업에서 개선이 나타나는가?
RQ4어떤 구문 특징(POS, 격, 부분어 위치)이 번역 및 이해 작업의 성능 향상에 가장 기여하는가?
RQ5구문-infused 접근법은 데이터 규모나 작업 유형(번역 대 GLUE 작업)에 걸쳐 이익이 있는가?

주요 결과

구문-infused Transformer는 데이터 규모에 관계없이 Baseline보다 BLEU를 향상시키며, EN-DE 데이터의 10%를 학습시켰을 때 최대 1.99 BLEU 포인트의 이득이 있다.
전반적으로 구문-infused Transformer는 데이터 크기가 커질수록 BLEU가 Baseline보다 균일하게 높아지며, 이점은 데이터의 더 작은 비율에서 가장 크다.
어텐션 시각화는 구문-infused 모델이 하위 어절들에 걸쳐 더 넓게 어텐션을 분포시키며 멀리 떨어진 관련 토큰들을 연결해 번역을 개선함을 시사한다.
POS 임베딩이 추가된 BERT BASE(BERT BASE + POS)는 GLUE의 8개 작업 중 4개에서 BERT BASE보다 우수하며, 특히 CoLA 및 관련 의미 작업에서 뚜렷한 이점을 보인다.
POS, 격, 부분어 위치 특징의 조합은 총 특징 임베딩 차원이 20일 때(합산 또는 연결 방식) 번역에 가장 큰 개선을 제공한다.
baseline과 비교했을 때 BERT BASE + POS가 여러 GLUE 작업에서 경쟁력 있는 개선을 보여 구문적 신호가 다운스트림 이해 작업에 도움을 준다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.