QUICK REVIEW

[논문 리뷰] Improving Neural Language Modeling via Adversarial Training

Dilin Wang, Chengyue Gong|arXiv (Cornell University)|2019. 06. 10.

Natural Language Processing Techniques인용 수 55

한 줄 요약

출력 어휘 임베딩에 적대적 섭동을 추가하는 적대적 MLE 학습을 도입하여 일반화를 개선하고 PTB와 WT2에서 새로운 상태-오브-더-아트 perplexities를 달성하며 Transformer 기반 MT의 BLEU 점수를 향상시킵니다.

ABSTRACT

Recently, substantial progress has been made in language modeling by using deep neural networks. However, in practice, large scale neural language models have been shown to be prone to overfitting. In this paper, we present a simple yet highly effective adversarial training mechanism for regularizing neural language models. The idea is to introduce adversarial noise to the output embedding layer while training the models. We show that the optimal adversarial noise yields a simple closed-form solution, thus allowing us to develop a simple and time efficient algorithm. Theoretically, we show that our adversarial mechanism effectively encourages the diversity of the embedding vectors, helping to increase the robustness of models. Empirically, we show that our method improves on the single model state-of-the-art results for language modeling on Penn Treebank (PTB) and Wikitext-2, achieving test perplexity scores of 46.01 and 38.07, respectively. When applied to machine translation, our method improves over various transformer-based translation baselines in BLEU scores on the WMT14 English-German and IWSLT14 German-English tasks.

연구 동기 및 목표

대형 신경 언어 모델에서 과적합을 방지하기 위한 정규화의 필요성을 제시합니다.
출력 소프트맥스 임베딩에 초점을 맞춘 간단한 적대적 학습 메커니즘을 제안합니다.
빠른 학습 알고리즘을 가능하게 하는 최적의 적대적 섭동에 대한 폐쇄형 해를 유도합니다.
이 방법이 임베딩 다양성 및 강인함을 촉진함을 이론적으로 보입니다.
언어 모델링 벤치마크(PTB, WT2, WT103) 및 기계 번역(WMT14 En-De, IWSLT14 De-En)에서 개선을 실증적으로 검증합니다.

제안 방법

모델 매개변수에 대한 로그가능도(log-likelihood)를 최대화하는 한편 출력 임베딩에 적용된 적대적 섭동에 대해 최소화하는 방식으로 적대적 MLE를 형식화합니다(Eq. 5).
대상 단어당 최적의 섭동을 폐쇄형(delta_i* = -epsilon h / ||h||)으로 계산하고, 이로 인해 AdvSoft_epsilon은 로짓을 -epsilon||h||만큼 이동시킵니다(Eq. 6–7).
표준 그래디언트 상승법으로 적대적 목표에 대해 (theta, w)를 반복적으로 업데이트하고, 폐쇄형 해를 사용해 delta를 갱신합니다.
입력 임베딩과 출력 임베딩의 연결(가중치 tying)을 적용하고 일반적인 학습 기법을 사용합니다; epsilon은 epsilon = alpha * ||w_i||로 하이퍼파라미터인 alpha에 따라 조정됩니다.
적대적 기제가 출력 임베딩 간의 다양성(ε-인식성, 거리 분리)을 강제함에 대한 이론적 통찰을 제공합니다.
PTB, WT2, WT103에서의 언어 모델링과 WMT2014 En-De 및 IWSLT2014 De-En의 번역에서 AWD-LSTM, Transformer와 같이 기본 아키텍처를 사용하고, softmax를 AdvSoft로 대체하여 평가합니다.

실험 결과

연구 질문

RQ1출력 임베딩에 대한 적대적 섭동이 신경망 언어 모델의 일반화에 도움이 되는가?
RQ2추가 파라미터 없이 간단하고 효율적인 정규화를 가능하게 하는 폐쇄형 적대적 섭동이 가능한가?
RQ3방법이 임베딩 다양성과 강인함을 촉진하고 벤치마크에서의 perplexity와 BLEU에 어떤 영향을 미치는가?
RQ4적대적 MLE가 언어 모델링과 신경 기계 번역(task)에 적용되었을 때 어떤 성과를 보이는가?

주요 결과

데이터셋	모델	매개변수 수	유효성 퍼플렉시티	테스트 퍼플렉시티
Penn Treebank (PTB)	AWD-LSTM + Ours	24M	57.15	55.01
Penn Treebank (PTB)	AWD-LSTM + MoS + Ours	22M	54.98	52.87
Penn Treebank (PTB)	AWD-LSTM + MoS + Partial Shuffled + Ours	22M	46.63	46.01
Wikitext-2 (WT2)	AWD-LSTM + Ours	24M	49.31	48.72
Wikitext-2 (WT2)	AWD-LSTM + MoS + Ours	22M	47.15	46.52
Wikitext-2 (WT2)	AWD-LSTM + MoS + Partial Shuffled + Ours	22M	46.63	46.01
Wikitext-103 (WT103)	4-layer QRNN (baseline)	32.0	33.0	–
Wikitext-103 (WT103)	4-layer QRNN + Ours	30.6	31.6	–
Wikitext-103 (WT103)	4-layer QRNN + Ours + Dynamic Eval	27.2	28.0	–

새로운 단일 모델 상태-오브-더-아트 perplexities를 PTB(46.01) 및 WT2(38.07)에서 달성합니다.
WT103에서 QRNN 기본 모델을 향상시켜 동적 평가와 함께 테스트 perplexity를 28.0으로 달성합니다.
번역에서 Transformer 기반 베이스라인이 BLEU를 개선합니다(En→De: 28.43/29.52; De→En: 33.61/35.18 for Small/Base 구성).
adverse softmax는 AWD-LSTM, MoS, Partial Shuffled 버전과 통합되었을 때 PTB 및 WT2에서 베스트라인보다 우수한 성능을 보입니다.
임베딩 다양성이 향상되어 가장 가까운 이웃 간의 거리 증가 및 임베딩의 특이값 분포가 더 균일해지며, PTB/WT2 실험에서 과적합이 감소하는 경향을 보였습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.