QUICK REVIEW

[논문 리뷰] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Colin Raffel, Noam Shazeer|arXiv (Cornell University)|2019. 10. 23.

Topic Modeling참고 문헌 125인용 수 3,692

한 줄 요약

본 논문은 모든 NLP 문제를 텍스트 입력에서 텍스트 출력으로 바꾸는 텍스트-투-텍스트 프레임워크인 T5를 소개하고, 사전 학습 목표, 구조, 데이터, 확장에 대해 체계적으로 연구하여 다양한 과제에서 최첨단 결과를 달성한다.

ABSTRACT

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new ``Colossal Clean Crawled Corpus'', we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.

연구 동기 및 목표

다양한 NLP 작업을 텍스트-투-텍스트 문제로 바꾸는 통합된 텍스트-투-텍스트 프레임워크를 제공한다.
사전 학습 목표, 아키텍처, 비라벨 데이터, 전이 방법의 영향을 체계적으로 평가한다.
다양한 벤치마크에서 최첨단 결과를 달성하기 위해 모델과 데이터를 확장한다.

제안 방법

기본 구성이 대략 220M 매개변수인 BERT 규모의 스택과 유사한 인코더-디코더 Transformer 아키텍처를 채택한다.
모든 작업을 텍스트-투-텍스트 문제로 공식화하고 목표 작업을 지정하기 위해 작업별 프리픽스를 사용한다.
Colossal Clean Crawled Corpus (C4)에서 노이즈 제거 목표로 사전 학습하고 다운스트림 작업에 미세 조정한다.
입력과 출력에 걸쳐 공유되는 SentencePiece를 통해 고정 어휘 32,000 WordPieces를 사용하며, 비영어 번역 데이터를 포함한다.
사전 학습에는 역제곱근 학습률 스케줄을 사용하고 미세 조정에는 고정 학습률을 사용한다.
Cloud TPU Pods에서 데이터 병렬 및 모델 병렬 접근 방식을 통한 모델 확장을 탐구한다.

실험 결과

연구 질문

RQ1대규모 비라벨 데이터 코퍼스에서 사전 학습되었을 때 단일 통합 텍스트-투-텍스트 모델이 다양한 NLP 작업에서 얼마나 잘 수행할 수 있는가?
RQ2사전 학습 목표, 모델 아키텍처, 데이터 세트가 다운스트림 작업 성능에 미치는 상대적 영향은 무엇인가?
RQ3모델 크기와 데이터를 확장시키는 것이 생성적 및 판별적 작업 전반에서 전이 학습 성능에 어떤 영향을 미치는가?
RQ4자연어 처리 전이 학습에서 대규모 정제 웹 코퍼트(C4)를 사전 학습에 사용하는 이점은 무엇인가?

주요 결과

통합 텍스트-투-텍스트 Transformer의 사전 학습은 번역, QA, 요약, 분류 벤치마크에서 강한 결과를 제공한다.
매개변수와 데이터를 확장하여 수십억 토큰에 달하는 대형 모델 크기까지 확장하면 많은 작업에서 성능이 향상된다.
일관된 학습 및 디코딩 절차를 갖춘 단일 모델이 다양한 작업에서 작업별 아키텍처를 능가할 수 있다.
Colossal Clean Crawled Corpus (C4)는 통합 프레임워크를 위한 효과적인 비지도 사전 학습을 가능하게 한다.
적절히 확장되면 이 방법은 다수의 벤치마크(요약, QA, 분류, 번역)에서 최첨단 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.