QUICK REVIEW

[논문 리뷰] Adversarial Training for Large Neural Language Models

Xiaodong Liu, Hao Cheng|arXiv (Cornell University)|2020. 04. 20.

Adversarial Robustness in Machine Learning참고 문헌 59인용 수 91

한 줄 요약

본 연구는 대규모 신경 언어 모델의 사전 학습과 미세 조정을 위한 일반적인 적대적 학습 알고리즘 ALUM을 소개하고, RoBERTa를 포함한 다양한 NLP 작업에서 일반화와 강건성을 향상시킨 것을 보여준다.

ABSTRACT

Generalization and robustness are both key desiderata for designing machine learning methods. Adversarial training can enhance robustness, but past work often finds it hurts generalization. In natural language processing (NLP), pre-training large neural language models such as BERT have demonstrated impressive gain in generalization for a variety of tasks, with further improvement from adversarial fine-tuning. However, these models are still vulnerable to adversarial attacks. In this paper, we show that adversarial pre-training can improve both generalization and robustness. We propose a general algorithm ALUM (Adversarial training for large neural LangUage Models), which regularizes the training objective by applying perturbations in the embedding space that maximizes the adversarial loss. We present the first comprehensive study of adversarial training in all stages, including pre-training from scratch, continual pre-training on a well-trained model, and task-specific fine-tuning. ALUM obtains substantial gains over BERT on a wide range of NLP tasks, in both regular and adversarial scenarios. Even for models that have been well trained on extremely large text corpora, such as RoBERTa, ALUM can still produce significant gains from continual pre-training, whereas conventional non-adversarial methods can not. ALUM can be further combined with task-specific fine-tuning to attain additional gains. The ALUM code is publicly available at https://github.com/namisan/mt-dnn.

연구 동기 및 목표

NLP에서 일반화가 잘 되고 적대적 공격에 저항하는 모델의 필요성을 제시한다.
사전 학습과 미세 조정에 적용 가능한 통합적 적대적 학습 프레임워크(ALUM)를 제안한다.
광범위한 NLP 작업과 데이터셋에 대해 ALUM을 평가한다.
적대적 사전 학습이 강력한 기준선(BERT, RoBERTa 등) 대비 이득을 제공하고 적대적 미세 조정과 결합될 수 있음을 입증한다.

제안 방법

가상적 적대 학습으로서 적대적 손실을 최대화하기 위해 임베딩 공간의扰화(perturbation)를 채택한다.
임베딩 이웃에서의 레이블 스무스니스(레이블의 매끄러움)를 제어하는 적대적 항으로 학습 목표를 정규화한다(알파 매개변수).
커리큘럼 접근법을 사용: 먼저 표준 학습을 수행한 뒤 적대적 학습(ALUM)을 계속한다.
효율성을 위해 작은 내부 루프(K=1)로扰化를 추정한다.
BERT 및 RoBERTa와 같은 트랜스포머 기반 모델에서 처음부터의 사전 학습, 연속 사전 학습, 그리고 작업별 미세 조정에 ALUM을 적용한다.
비적대적 기준선 대비 상당한 이득과 작업별 미세 조정과의 호환성을 보여주는 결과를 제공한다.

실험 결과

연구 질문

RQ1적대적 사전 학습이 표준 NLP 벤치마크에서 일반화를 향상시키는가?
RQ2적대적 사전 학습이 적대적이거나 어려운 평가 데이터셋에 대한 강건성도 향상시키는가?
RQ3이미 잘 학습된 모델(RoBERTa와 같은)을 지속적으로 사전 학습시킬 때 ALUM이 이득을 제공하는가?
RQ4작업 전반에 걸쳐 적대적 사전 학습과 적대적 미세 조정을 결합하는 효과는 무엇인가?

주요 결과

ALUM과 함께하는 적대적 사전 학습은 광범위한 NLP 작업에 걸쳐 일반화와 강건성 모두를 향상시킨다.
ALUM은 SQuAD와 MNLI에서 BERT 대비 이득을 제공하고 RoBERTa와 같이 대규모 코퍼스로 학습된 모델에서도 표준 기준선을 능가한다.
RoBERTa의 연속 사전 학습에서 ALUM은 표준 연속 사전 학습이 아닌 경우에도 이득을 제공한다.
ALUM은 ANLI, Adversarial SQuAD, HELLASWAG 등 적대적 벤치마크에서 강건성을 향상시키고 종종 강력한 기준선을 능가한다.
적대적 사전 학습과 적대적 미세 조정을 결합하면 여러 작업에서 최상의 성능을 낸다(예: MNLI, ANLI, SciTail, SWAG, HELLASWAG).
이 접근법은 처음부터의 사전 학습, 연속 사전 학습, 작업별 미세 조정에 적용 가능하며 BERT와 RoBERTa에서 시연된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.