QUICK REVIEW

[논문 리뷰] Towards Zero-Label Language Learning

Zi-Rui Wang, Adams Wei Yu|arXiv (Cornell University)|2021. 09. 19.

Topic Modeling참고 문헌 23인용 수 46

한 줄 요약

이 논문은 Unsupervised Data Generation (UDG)를 도입합니다. 이는 Few-shot 프롬프트를 사용해 사전학습된 언어 모델로부터 비라벨 예제에서 라벨이 있는 학습 데이터를 합성하는 제로-레이블 학습 프레임워크로, 제로-레이블 학습과 효과적인 데이터 증강을 가능하게 하며 SuperGLUE에서 감독하의 baselines를 능가할 수 있습니다.

ABSTRACT

This paper explores zero-label learning in Natural Language Processing (NLP), whereby no human-annotated data is used anywhere during training and models are trained purely on synthetic data. At the core of our framework is a novel approach for better leveraging the powerful pretrained language models. Specifically, inspired by the recent success of few-shot inference on GPT-3, we present a training data creation procedure named Unsupervised Data Generation (UDG), which leverages few-shot prompts to synthesize high-quality training data without real human annotations. Our method enables zero-label learning as we train task-specific models solely on the synthetic data, yet we achieve better or comparable results from strong baseline models trained on human-labeled data. Furthermore, when mixed with labeled data, our approach serves as a highly effective data augmentation procedure, achieving new state-of-the-art results on the SuperGLUE benchmark.

연구 동기 및 목표

자연어 처리에서 인간 주석 데이터 의존도를 줄이기 위한 제로-레이블 학습의 동기를 부여한다.
사전학습된 언어 모델을 활용해 감독 없이 라벨이 있는 예시를 생성하는 데이터 생성 파이프라인을 개발한다.
합성 데이터로의 학습이 감독형 baselines에 필적하거나 이를 능가하고, 라벨 데이터와 결합 시 성능을 향상시킬 수 있음을 보인다.
UDG의 효과를 텍스트 분류 및 일반적인 언어 이해 벤치마크(SuperGLUE)에서 Demonstrate한다.

제안 방법

Unsupervised Data Generation (UDG) 제안: 프리트레이닝된 언어 모델에 프롬프트를 제공하고 Des(y_hat)라는 의사 라벨 설명과 몇 개의 비라벨 예시를 주어 X를 생성하게 함으로써 생성과 예측을 분리한다.
생성기를 미세조정하지 않고 top-k 샘플링을 사용해 합성 (x_g, y_hat) 쌍을 생성한다.
합성 데이터셋으로 태스크-특정 모델을 학습하고 필요 시 Noisy Label Annealing(NLA)을 사용해 학습 중 노이즈가 있는 합성 예제의 가중치를 낮춘다.
UDG를 비감독 텍스트 분류 및 SuperGLUE 스타일의 언어 이해 태스크에 적용하고, 생성된 데이터에 대해 T5 기반 다운스트림 모델을 사용해 미세조정한다.
데이터 규모 및 프롬프트-예시 효과를 조사하고 합성 데이터와 실제 라벨 데이터의 결합을 통한 데이터 증강을 연구한다.
라벨 데이터로 보강했을 때의 SuperGLUE에서의 경쟁력과 잠재적 초인간 성능을 평가하기 위해 소수 샷 추론 및 감독 기설과 비교한다.

실험 결과

연구 질문

RQ1합성 데이터를 이용한 제로-레이블 학습이 표준 NLP 벤치마크에서 감독 기반 기준선에 맞먹거나 이를 능가할 수 있는가?
RQ2합성 데이터 품질, 프롬프트 설계, 데이터 크기가 UDG 성능에 어떤 영향을 미치는가?
RQ3실제 라벨 데이터와 결합했을 때 UD가 데이터 증강 방법으로 효과적인가, 특히 SuperGLUE와 같은 도전적인 벤치마크에서?
RQ4훈련 중 노이즈가 있는 합성 데이터를 완화하는 Noisy Label Annealing의 역할은 무엇인가?

주요 결과

모델	설정	SuperGLUE 평균
Human		89.8
Previous SOTA	Supervised	89.3
T5+UDG		90.4
GPT3	Few-Shot	71.8
UDG	Unsupervised	78.1

UDG는 비감독 설정에서도 IMDb, Yelp, Amazon, DBpedia 등의 텍스트 분류 벤치마크에서 강력한 감독 기반 기준선과 경쟁력 있는 결과를 달성한다.
SuperGLUE에서 UD가 비감독 데이터로 78.1 평균을 달성하고, 라벨 데이터와 결합 시 최첨단 점수에 도달하며 2020년 12월 20일 기준으로 인간 성능을 능가하는 경우도 있다.
T5 또는 XLNet 기반 백본을 사용한 경우 UDG와 Noisy Label Annealing(NLA)은 다양한 태스크에서 성능을 향상시키고, GPT-3와 같은 소수-shot 추론보다 우수한 경우가 많다.
few-shot 프롬프트를 통한 데이터는 증강을 위해 확장될 수 있으며, 라벨 데이터와 결합될 때 소규모 데이터 태스크(COPA, WSC)에서 특히 개선을 가져온다.
UDG가 IMDb 및 Yelp-2에서 제로-레이블 설정으로도 다수의 완전 감독 모델을 능가할 수 있음을 보여주며, 다운스트림 학습을 위한 비감독 데이터 생성의 강점을 부각한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.