QUICK REVIEW

[논문 리뷰] A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation

Dinghan Shen, Mingzhi Zheng|arXiv (Cornell University)|2020. 09. 29.

Topic Modeling참고 문헌 45인용 수 94

한 줄 요약

본 논문은 Cutoff를 도입한다. 입력 임베딩의 일부를 지워 부분 보기를 생성하는 간단한 데이터 증강 방법과 Jensen-Shannon 발산 일관성 손실을 결합하여, 적대적 학습보다 더 낮은 오버헤드로 GLUE와 기계 번역에서 경쟁력 있거나 최첨단 결과를 달성한다.

ABSTRACT

Adversarial training has been shown effective at endowing the learned representations with stronger generalization ability. However, it typically requires expensive computation to determine the direction of the injected perturbations. In this paper, we introduce a set of simple yet effective data augmentation strategies dubbed cutoff, where part of the information within an input sentence is erased to yield its restricted views (during the fine-tuning stage). Notably, this process relies merely on stochastic sampling and thus adds little computational overhead. A Jensen-Shannon Divergence consistency loss is further utilized to incorporate these augmented samples into the training objective in a principled manner. To verify the effectiveness of the proposed strategies, we apply cutoff to both natural language understanding and generation problems. On the GLUE benchmark, it is demonstrated that cutoff, in spite of its simplicity, performs on par or better than several competitive adversarial-based approaches. We further extend cutoff to machine translation and observe significant gains in BLEU scores (based upon the Transformer Base model). Moreover, cutoff consistently outperforms adversarial training and achieves state-of-the-art results on the IWSLT2014 German-English dataset.

연구 동기 및 목표

대량으로 사전 학습된 언어 모델의 일반화 능력을 강화하여 강력한 미세조정의 필요 비용을 줄인다.
입력 임베딩 수준에서 정보를 지우는 간단하고 구조화된 증강 전략을 개발한다.
다양한 뷰 간 예측을 정교한 일관성 목표로 통합하여 예측을 개선한다.
자연어 이해 벤치마크와 기계 번역 과제에서 효과를 입증한다.

제안 방법

Cutoff를 제안하여 부분 보기를 만들고, 토큰 컷오프(토큰 임베딩 제로화), 피처 컷오프(임베딩 차원 제로화), 스팬 컷오프(연속 스팬 제로화)로 제거한다.
원본 뷰와 여러 증강 뷰 간 예측을 정렬하기 위해 Jensen-Shannon 발산 일관성 손실을 사용한다.
증강 샘플에 교차 엔트로피 손실을 JS 발산 항과 결합하여 학습 목표에 반영한다.
입력과 출력을 모두 증강하여 조건부 텍스트 생성을 확장한다.
역전파 패스를 적게 요구하는 비교적 적은 계산 오버헤드로 adversarial 훈련과의 비교를 강조한다.

실험 결과

연구 질문

RQ1Cutoff 증강이 적대적 방법 및 다른 데이터 증강 기법과 비교할 때 NLU 태스크에서 일반화를 개선하는가?
RQ2Cutoff를 신경망 기계 번역으로 효과적으로 확장하여 최첨단 결과를 낼 수 있는가?
RQ3다양한 컷오프 유형과 증강 강도가 성능에 어떤 영향을 미치는가?
RQ4JS-발상 동시성 손실을 도입하면 표준 CE 손실보다 추가 이득이 있는가?
RQ5Cutoff는 일반적인 적대적 학습 접근법보다 계산적으로 더 효율적인가?

주요 결과

Cutoff 변형은 GLUE 개발 세트에서 RoBERTa-base 및 RoBERTa-large 기본 모델에 대해 ALUM보다 일관되게 우수한 성과를 보인다.
스팬 컷오프가 GLUE 태스크 전반에서 가장 강한 성능을 자주 보인다.
기계 번역에서 Cutoff와 JS 손실은 WMT14 영어-독일어 및 IWSLT2014 독일어-영어에서 여러 적대적 기준선보다 더 높은 BLEU 점수를 달성한다.
토큰 컷오프는 Cutoff 변형 중 WMT14 영어-독일어에서 가장 좋은 BLEU를 달성하며, JS 손실과 함께 전체 BLEU가 더 향상된다.
JS 발산 손실은 일반적으로 MNLI 개발 정확도를 향상시키며, β가 약 1.0일 때 절차적 실험에서 최상의 결과를 보인다.
Cutoff는 추가 역전파 패스를 필요로 하지 않고 전방 실행 시간이 비교적 적절한 오버헤드를 가지므로 많은 적대적 방법보다 효율적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.