QUICK REVIEW

[논문 리뷰] FreeLB: Enhanced Adversarial Training for Natural Language Understanding

Chen Zhu, Yu Cheng|arXiv (Cornell University)|2019. 09. 25.

Topic Modeling인용 수 176

한 줄 요약

FreeLB는 단어 임베딩을 교란하고 여러 상승 스텝에 걸쳐 파라미터 그래디언트를 축적하는 그래디언트 기반의 저비용 적대적 훈련 방법으로 일반화 성능을 향상시키고 여러 NLP 벤치마크에서 최첨단 결과를 달성합니다.

ABSTRACT

Adversarial training, which minimizes the maximal risk for label-preserving input perturbations, has proved to be effective for improving the generalization of language models. In this work, we propose a novel adversarial training algorithm, FreeLB, that promotes higher invariance in the embedding space, by adding adversarial perturbations to word embeddings and minimizing the resultant adversarial risk inside different regions around input samples. To validate the effectiveness of the proposed approach, we apply it to Transformer-based models for natural language understanding and commonsense reasoning tasks. Experiments on the GLUE benchmark show that when applied only to the finetuning stage, it is able to improve the overall test scores of BERT-base model from 78.3 to 79.4, and RoBERTa-large model from 88.5 to 88.8. In addition, the proposed approach achieves state-of-the-art single-model test accuracies of 85.44\% and 67.75\% on ARC-Easy and ARC-Challenge. Experiments on CommonsenseQA benchmark further demonstrate that FreeLB can be generalized and boost the performance of RoBERTa-large model on other tasks as well. Code is available at \url{https://github.com/zhuchen03/FreeLB .

연구 동기 및 목표

강건한 임베딩 공간 표현을 통해 대형 사전 학습 언어 모델의 일반화를 촉진하고 개선한다.
훈련 오버헤드를 줄이기 위해 자유로운 대규모 배치 업데이트를 활용하는 효과적인 적대적 훈련 알고리즘을 개발한다.
FreeLB로부터의 임베딩 공간 불변성이 NLU 태스크의 다운스트림 성능 향상과의 상관관계가 있음을 입증한다.
GLUE, ARC, CommonsenseQA 벤치마크에서 단일 모델 미세조정으로 최첨단 성능을 달성하는 FreeLB를 보여준다.]
method:[
임베딩 공간에서 노름으로 경계가 있는 적대적 교란으로 단어/하위단어 임베딩을 교란한다.
원래 임베딩과 교란된 임베딩 주위의 epsILON-볼의 교차점에서 적대적 교란을 설계하기 위한 다단계 PGD 기반 상승을 사용한다.
각 상승 단계에서 그래디언트를 누적하여 전체 파라미터 업데이트를 형성하고, 사실상 가상 배치 K배 더 크게 학습한다.
상승 단계 전체에서 드롭아웃 마스크를 일관되게 재사용하여 적대적 업데이트를 안정화한다.
FreeLB를 PGD와 FreeAT/YOPO와 비교하여 임베딩 공간의 더 높은 강건성과 불변성을 강조한다.

제안 방법

- 임베딩 공간에서 노름으로 경계가 있는 적대적 교란으로 단어/하위단어 임베딩을 교란한다.
- 원래 임베딩과 교란된 임베딩 주위의 epsilon-볼의 교차점에서 적대적 교란을 설계하기 위한 다단계 PGD 기반 상승을 사용한다.
- 각 상승 단계에서 그래디언트를 누적하여 전체 파라미터 업데이트를 형성하고, 사실상 가상 배치 K배 더 크게 학습한다.
- 상승 단계 전체에서 드롭아웃 마스크를 일관되게 재사용하여 적대적 업데이트를 안정화한다.
- FreeLB를 PGD와 FreeAT/YOPO와 비교하여 임베딩 공간의 더 높은 강건성과 불변성을 강조한다.

실험 결과

연구 질문

RQ1FreeLB가 기존의 적대적 학습 방법과 비교하여 표준 NLP 벤치마크에서 트랜스포머 기반 모델의 일반화를 향상시키는가?
RQ2드롭아웃 마스크의 재사용 및 상승 스텝 수가 강건성과 성능에 어떤 영향을 미치는가?
RQ3단일 모델 미세조정으로 GLUE, ARC, CommonsenseQA에서 최첨단 결과를 달성할 수 있는가?

주요 결과

FreeLB는 GLUE 점수를 기준선 대비 향상시켜 RoBERTa-large를 전체 GLUE 점수에서 88.5에서 88.8로, BERT-base를 78.3에서 79.4로 상승시켰다.
ARC에서 FreeLB 미세조정은 ARC-Easy의 dev 정확도를 77.83에서 78.81로, ARC-Challenge의 dev 정확도를 64.54에서 65.36으로 상승시켰다(단일 모델).
FreeLB는 보고된 리더들과 비교해 ARC-Easy 및 ARC-Challenge에서 단일 모델 기준으로 최첨단 결과를 달성한다.
CommonsenseQA에서 FreeLB 미세조정은 dev 정확도를 77.56에서 78.81로 증가시키고, 테스트 세트에서는 단일 모델 72.2%, 20모델 앙상블 73.1%의 성능을 달성했다.
FreeLB는 입력 주변에서의 강건한 임베딩 공간 불변성과 최대 손실 증가가 Vanilla 또는 PGD 학습 모델에 비해 감소하는 것을 보여주며, RTE, CoLA, MRPC 데이터셋에서도 확인된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.