[논문 리뷰] All NLP Tasks Are Generation Tasks: A General Pretraining Framework
이 논문은 모든 자연어 처리(NLP) 작업—분류, 조건부가 아닌 생성, 조건부 생성—을 단일 아키텍처를 사용해 텍스트 생성 작업으로 통합하는 프리트레인 프레임워크인 GLM을 제안한다. GLM은 동일한 프리트레인 데이터를 사용할 때 BERT를 초월하는 슈퍼글루(SuperGLUE) 벤치마크에서 최고 성능을 기록하며, 파라미터 수가 BERT-Large의 1.25배일 때도 모든 작업 유형에서 BERT-Large의 성능을 뛰어넘거나 동등하게 유지한다.
There have been various types of pretraining architectures including autoregressive models (e.g., GPT), autoencoding models (e.g., BERT), and encoder-decoder models (e.g., T5). On the other hand, NLP tasks are different in nature, with three main categories being classification, unconditional generation, and conditional generation. However, none of the pretraining frameworks performs the best for all tasks, which introduces inconvenience for model development and selection. We propose a novel pretraining framework GLM (General Language Model) to address this challenge. Compared to previous work, our architecture has three major benefits: (1) it performs well on classification, unconditional generation, and conditional generation tasks with one single pretrained model; (2) it outperforms BERT-like models on classification due to improved pretrain-finetune consistency; (3) it naturally handles variable-length blank filling which is crucial for many downstream tasks. Empirically, GLM substantially outperforms BERT on the SuperGLUE natural language understanding benchmark with the same amount of pre-training data. Moreover, GLM with 1.25x parameters of BERT-Large achieves the best performance in NLU, conditional and unconditional generation at the same time, which demonstrates its generalizability to different downstream tasks.
연구 동기 및 목표
- 다양한 NLP 작업에 대해 서로 다른 프리트레인 프레임워크를 사용하는 문제를 해결하여 모델 개발 및 선택을 단순화한다.
- BERT 유형 모델이 종종 성능이 열등한 분류 작업의 프리트레인-피니튜닝 일致성을 향상시킨다.
- 한 개의 프리트레인된 모델이 분류, 조건부가 아닌 생성, 조건부 생성 작업을 효과적으로 처리할 수 있도록 한다.
- 변수 길이의 빈칸 채우기를 자연스럽게 지원하여, 많은 최종 NLP 응용 분야에서 핵심적인 능력을 확보한다.
제안 방법
- GLM은 인과적 어텐션 마스크를 사용하여 자동회귀 생성을 가능하게 하면서도 분류 작업을 위한 인코더 유사 표현을 유지한다.
- 모든 NLP 작업을 텍스트 생성으로 간주하는 통합 목표를 사용하며, 빈칸 채우기 작업을 위한 마스킹 스펜 예측도 포함한다.
- 모델 아키텍처는 단일 트랜스포머 기반 프레임워크 내에서 디코더 및 인코더 기능을 통합한다.
- 모든 작업 간에 공통된 어휘 및 토크나이저를 적용하여 일관된 표현 학습을 가능하게 한다.
- 프리트레인 목표는 자동회귀 언어 모델링과 스펜 마스킹을 결합하여 다양한 최종 작업을 지원한다.
- 피니튜닝 중에 동적 시퀀스 길이와 변수 길이의 스펜 예측을 지원한다.
실험 결과
연구 질문
- RQ1한 개의 프리트레인 프레임워크가 분류, 조건부가 아닌 생성, 조건부 생성 작업을 효과적으로 처리할 수 있는가?
- RQ2BERT 유형 모델과 비교해 통합된 생성 기반 접근법이 프리트레인-피니튜닝 일치성을 향상시키는가?
- RQ3특정 작업에 맞는 아키텍처 수정 없이도 모델이 작업 간 일반화가 가능한가?
- RQ4기존 아키텍처와 비교해 변수 길이의 빈칸 채우기 작업에서 모델의 성능은 어떠한가?
주요 결과
- GLM은 동일한 프리트레인 데이터를 사용할 때 SuperGLUE 벤치마크에서 BERT를 초월한다.
- BERT-Large의 1.25배 파라미터를 사용할 때도 GLM은 모든 NLU, 조건부, 조건부가 아닌 생성 작업에서 최고 성능을 기록한다.
- 모델는 프리트레인-피니튜닝 일치성이 향상되어 BERT 유형 모델보다 분류 작업에서 더 뛰어난 성능을 발휘한다.
- GLM은 변수 길이의 빈칸 채우기를 자연스럽게 처리하며, 클로즈 스타일의 질의 응답과 같은 작업에 필수적인 능력을 갖춘다.
- 통합 프레임워크는 여러 전용 아키텍처가 필요 없게 하여 모델 개발 및 배포를 단순화한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.