QUICK REVIEW

[논문 리뷰] Data Augmentation using Pre-trained Transformer Models

Varun Kumar, Ashutosh Choudhary|arXiv (Cornell University)|2020. 03. 04.

Topic Modeling참고 문헌 26인용 수 140

한 줄 요약

요약: 이 논문은 데이터 증강을 위해 사전 학습된 트랜스포머 모델(BERT, GPT-2, BART)을 조건화하는 세 가지 접근법을 저자원 설정의 세 가지 NLP 분류 작업에서 비교하고, 시퀀스-투-시퀀스 기반 BART가 일반적으로 증강에 대해 최상으로 수행하는 반면 백트랜스레이션과 같은 벤치마크가 강한 기준선임을 보인다.

ABSTRACT

Language model based pre-trained models such as BERT have provided significant gains across different NLP tasks. In this paper, we study different types of transformer based pre-trained models such as auto-regressive models (GPT-2), auto-encoder models (BERT), and seq2seq models (BART) for conditional data augmentation. We show that prepending the class labels to text sequences provides a simple yet effective way to condition the pre-trained models for data augmentation. Additionally, on three classification benchmarks, pre-trained Seq2Seq model outperforms other data augmentation methods in a low-resource setting. Further, we explore how different pre-trained model based data augmentation differs in-terms of data diversity, and how well such methods preserve the class-label information.

연구 동기 및 목표

세 가지 트랜스포머 기반 데이터 증강 접근법(AE/BERT, AR/GPT-2, Seq2Seq/BART)을 조건화된 텍스트 생성에 대해 평가한다.
레이블 조건화(입력 앞에 추가 vs 어휘에 레이블 추가)를 통해 증강 품질이 작업 전반에 걸쳐 어떻게 달라지는지 평가한다.
저자원 하에서 증강 방법을 기본 벤치마크(EDA, Backtranslation, CBERT)와 비교한다.
생성 데이터의 의미적 충실도와 다양성을 분석한다.
데이터 증강을 위한 사전 학습 모델 선택에 관한 실용적 가이드라인을 제공한다.

제안 방법

레이블 레이블을 입력에 앞에 붙여 생성 조건을 주도록 labeled 데이터를 사용해 BERT, GPT-2, 및 BART를 미세조정한다.
AE 모델(BERT)의 경우 표준 마스킹으로 MLM 목표를 사용하고; AR 모델(GPT-2)의 경우 레이블 프롬프트와 확장된 맥락으로 조건화된 텍스트를 생성하며; Seq2Seq 모델(BART)의 경우 단어 또는 스팬 마스킹과 40% 마스킹 비율로 디노이징을 사용한다.
두 가지 조건화 체계(앞에 붙이기: 입력에 레이블 추가 vs 확장하기: 어휘에 레이블 추가)를 비교한다.
훈련 예당 하나당 하나의 합성 예제를 생성하여 균형 잡힌 증강 데이터세트를 구성한다.
증강 데이터에 대해 기본 BERT 분류기를 학습시키고 전체 테스트 세트에서 평가한다.
내재적(탐지기 분류기와 타입-토큰 다양성을 통한 의미 충실도 평가) 및 외재적(테스트 세트 정확도) 효과를 평가한다.

실험 결과

연구 질문

RQ1사전 학습된 자동인코더, 오토레그레시브, 시퀀스 투 시퀀스 모델이 데이터 증강을 위해 클래스 레이블에 효과적으로 조건화될 수 있는가?
RQ2어떤 조건화 체계(앞에 붙이기 vs 확장하기)가 다운스트림 성능과 일반화에 있어 더 나은가?
RQ3저자원 설정에서 이러한 증강 방법이 강력한 벤치마크(EDA, Backtranslation, CBERT)와 어떻게 비교되는가?
RQ4생성 샘플은 모델 간 의미 충실도와 다양성을 어떻게 균형 있게 다루는가?
RQ5데이터 증강을 위한 사전 학습 모델 선택에 대한 실용적 가이드라인은 무엇인가?

주요 결과

모델	SST-2	SNIPS	TREC
No Aug	52.93 (5.01)	79.38 (3.20)	48.56 (11.53)
EDA	53.82 (4.44)	85.78 (2.96)	52.57 (10.49)
BackTrans.	57.45 (5.56)	86.45 (2.40)	66.16 (8.52)
CBERT	57.36 (6.72)	85.79 (3.46)	64.33 (10.90)
BERT expand	56.34 (6.48)	86.11 (2.70)	65.33 (6.05)
BERT prepend	56.11 (6.33)	86.77 (1.61)	64.74 (9.61)
GPT2 context	55.40 (6.71)	86.59 (2.73)	54.29 (10.12)
BART word	57.97 (6.80)	86.78 (2.59)	63.73 (9.84)
BART span	57.68 (7.06)	87.24 (1.39)	67.30 (6.13)

Seq2Seq 기반의 BART는 저데이터 설정에서 SST-2, SNIPS, TREC 전반에 걸쳐 다른 증강 방법보다 일반적으로 우수한 성능을 보인다.
Back-translation은 충실도 면에서 여전히 강한 기준선으로 남아 있으며 종종 다른 사전 학습 방식보다 우수하다.
AE 기반 방법(BERT)은 경쟁력 있는 성능을 보이며 간단한 레이블 앞붙이기가 견고한 결과를 낳는다.
AR 기반 GPT-2는 생성 데이터에서 레이블을 더 잘 보존하기 위해 추가 맥락(GPT-2 컨텍스트)이 필요하다.
다양성과 충실도 사이의 트레이드오프는 방법에 따라 다르게 나타나며, EDA는 어휘 다양성은 높지만 의미를 해칠 수 있다.
앞에 붙이기 조건화가 확장하기보다 더 넓은 호환성과 더 빠른 수렴으로 인해 종종 선호된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.