Skip to main content
QUICK REVIEW

[논문 리뷰] Data Augmentation using Pre-trained Transformer Models

Varun Kumar, Ashutosh Choudhary|arXiv (Cornell University)|2020. 03. 04.
Topic Modeling참고 문헌 26인용 수 140
한 줄 요약

요약: 이 논문은 데이터 증강을 위해 사전 학습된 트랜스포머 모델(BERT, GPT-2, BART)을 조건화하는 세 가지 접근법을 저자원 설정의 세 가지 NLP 분류 작업에서 비교하고, 시퀀스-투-시퀀스 기반 BART가 일반적으로 증강에 대해 최상으로 수행하는 반면 백트랜스레이션과 같은 벤치마크가 강한 기준선임을 보인다.

ABSTRACT

Language model based pre-trained models such as BERT have provided significant gains across different NLP tasks. In this paper, we study different types of transformer based pre-trained models such as auto-regressive models (GPT-2), auto-encoder models (BERT), and seq2seq models (BART) for conditional data augmentation. We show that prepending the class labels to text sequences provides a simple yet effective way to condition the pre-trained models for data augmentation. Additionally, on three classification benchmarks, pre-trained Seq2Seq model outperforms other data augmentation methods in a low-resource setting. Further, we explore how different pre-trained model based data augmentation differs in-terms of data diversity, and how well such methods preserve the class-label information.

연구 동기 및 목표

  • 세 가지 트랜스포머 기반 데이터 증강 접근법(AE/BERT, AR/GPT-2, Seq2Seq/BART)을 조건화된 텍스트 생성에 대해 평가한다.
  • 레이블 조건화(입력 앞에 추가 vs 어휘에 레이블 추가)를 통해 증강 품질이 작업 전반에 걸쳐 어떻게 달라지는지 평가한다.
  • 저자원 하에서 증강 방법을 기본 벤치마크(EDA, Backtranslation, CBERT)와 비교한다.
  • 생성 데이터의 의미적 충실도와 다양성을 분석한다.
  • 데이터 증강을 위한 사전 학습 모델 선택에 관한 실용적 가이드라인을 제공한다.

제안 방법

  • 레이블 레이블을 입력에 앞에 붙여 생성 조건을 주도록 labeled 데이터를 사용해 BERT, GPT-2, 및 BART를 미세조정한다.
  • AE 모델(BERT)의 경우 표준 마스킹으로 MLM 목표를 사용하고; AR 모델(GPT-2)의 경우 레이블 프롬프트와 확장된 맥락으로 조건화된 텍스트를 생성하며; Seq2Seq 모델(BART)의 경우 단어 또는 스팬 마스킹과 40% 마스킹 비율로 디노이징을 사용한다.
  • 두 가지 조건화 체계(앞에 붙이기: 입력에 레이블 추가 vs 확장하기: 어휘에 레이블 추가)를 비교한다.
  • 훈련 예당 하나당 하나의 합성 예제를 생성하여 균형 잡힌 증강 데이터세트를 구성한다.
  • 증강 데이터에 대해 기본 BERT 분류기를 학습시키고 전체 테스트 세트에서 평가한다.
  • 내재적(탐지기 분류기와 타입-토큰 다양성을 통한 의미 충실도 평가) 및 외재적(테스트 세트 정확도) 효과를 평가한다.

실험 결과

연구 질문

  • RQ1사전 학습된 자동인코더, 오토레그레시브, 시퀀스 투 시퀀스 모델이 데이터 증강을 위해 클래스 레이블에 효과적으로 조건화될 수 있는가?
  • RQ2어떤 조건화 체계(앞에 붙이기 vs 확장하기)가 다운스트림 성능과 일반화에 있어 더 나은가?
  • RQ3저자원 설정에서 이러한 증강 방법이 강력한 벤치마크(EDA, Backtranslation, CBERT)와 어떻게 비교되는가?
  • RQ4생성 샘플은 모델 간 의미 충실도와 다양성을 어떻게 균형 있게 다루는가?
  • RQ5데이터 증강을 위한 사전 학습 모델 선택에 대한 실용적 가이드라인은 무엇인가?

주요 결과

  • Seq2Seq 기반의 BART는 저데이터 설정에서 SST-2, SNIPS, TREC 전반에 걸쳐 다른 증강 방법보다 일반적으로 우수한 성능을 보인다.
  • Back-translation은 충실도 면에서 여전히 강한 기준선으로 남아 있으며 종종 다른 사전 학습 방식보다 우수하다.
  • AE 기반 방법(BERT)은 경쟁력 있는 성능을 보이며 간단한 레이블 앞붙이기가 견고한 결과를 낳는다.
  • AR 기반 GPT-2는 생성 데이터에서 레이블을 더 잘 보존하기 위해 추가 맥락(GPT-2 컨텍스트)이 필요하다.
  • 다양성과 충실도 사이의 트레이드오프는 방법에 따라 다르게 나타나며, EDA는 어휘 다양성은 높지만 의미를 해칠 수 있다.
  • 앞에 붙이기 조건화가 확장하기보다 더 넓은 호환성과 더 빠른 수렴으로 인해 종종 선호된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.