QUICK REVIEW

[논문 리뷰] Zero-shot Text Classification With Generative Language Models

Raul Puri, Bryan Catanzaro|arXiv (Cornell University)|2019. 12. 10.

Topic Modeling참고 문헌 22인용 수 74

한 줄 요약

논문은 새로운 작업에 적응 가능한 제로샷 텍스트 분류를 위해 작업을 자연어 다지선다형 문제로 프레이밍하는 생성형 언어모델 기반 접근 방식을 보이며, 작업별 헤드 없이도 새로운 작업에 적응하고 여섯 데이터셋에서 베이스라인 대비 이득을 얻는다.

ABSTRACT

This work investigates the use of natural language to enable zero-shot model adaptation to new tasks. We use text and metadata from social commenting platforms as a source for a simple pretraining task. We then provide the language model with natural language descriptions of classification tasks as input and train it to generate the correct answer in natural language via a language modeling objective. This allows the model to generalize to new classification tasks without the need for multiple multitask classification heads. We show the zero-shot performance of these generative language models, trained with weak supervision, on six benchmark text classification datasets from the torchtext library. Despite no access to training data, we achieve up to a 45% absolute improvement in classification accuracy over random or majority class baselines. These results show that natural language can serve as simple and powerful descriptors for task adaptation. We believe this points the way to new metalearning strategies for text problems.

연구 동기 및 목표

자연어 서술어를 사용하여 새로운 텍스트 분류 작업에 대한 제로샷 모델 적응을 동기화한다.
다양하고 약하게 감독된 태스크에서 생성형 언어모델을 사전학습시켜 많은 N-way 분류 태스크를 시뮬레이션한다.
여섯 표준 텍스트 분류 벤치마크에 대한 제로샷 전이 성능을 평가하고 모델 규모와 데이터 규모의 효과를 분석한다.
클래스 서술 품질이 성능과 제어가능성에 미치는 영향을 탐구하고 한계 및 향후 방향을 논의한다.

제안 방법

자연어 클래스 설명을 이용한 텍스트 분류를 다지선다형 질문-응답 태스크로 재구성한다.
대규모 약하게 감독된 태스크(OpenWebText with title prediction)에서 GPT-2 모델을 사전학습시켜 자연어 옵션 집합에서 설명적 레이블을 선택하는 방법을 학습한다.
선택된 클래스 설명 목록을 입력 문서 앞에 붙이고 언어 모델링 목표를 통해 올바른 클래스 텍스트를 생성하도록 모델을 훈련한다.
학습된 위치 임베딩과 특수 토큰을 사용해 질문-텍스트-답변 구간을 구분하고 다음 토큰 예측 손실로 최적화한다.
영어명: TorchText 데이터셋 여섯 개에서 전체 클래스를 자연어로 제공하고 모델이 올바른 클래스를 출력하도록 프롬프트하여 제로샷 성능을 평가한다.
모델 크기와 데이터 규모의 영향을 조사하고 무작위, 다수결, 미세조정 베이스라인과 비교한다.

실험 결과

연구 질문

RQ1단일 생성형 언어모델이 자연어 태스크 서술어를 사용하여 보지 않은 텍스트 분류 작업에 적응할 수 있는가?
RQ2모델 크기와 사전학습 데이터 규모가 다양한 데이터셋에서 제로샷 분류 정확도에 어떤 영향을 미치는가?
RQ3클래스 서술자의 품질이 제로샷 성능과 출력 타당성에 어떤 영향을 미치는가?
RQ4하나의 일관된 모델이 작업별 헤드를 피하면서도 경쟁력 있는 정확성을 유지할 수 있는가?
RQ5생성형 모델을 사용한 제로샷 텍스트 분류의 한계와 향후 방향은 무엇인가?

주요 결과

모델	SST-2	AGNews	DBPedia	Yahoo	Amazon-2	Yelp-2	Average	SOTA
무작위 추정	~50.6	27.4	7.27	10.2	52.9	50.4	33.1
다수결 클래스	~49.9	25.3	7.6	9.9	49.3	49.2	31.9
117M 전체 데이터	51.8 / 0	40.2 / .00	39.6 / .25	26.1 / .97	50.3 / .001	50.1 / 0	43.0 / .202
355M 1/4 데이터	61.7 / 0	68.3 / .51	52.5 / .03	52.2 / .64	64.5 / .001	58.5 / 0	59.6 / .197
355M 전체 데이터	62.5 / 0	65.5 / .01	44.8 / .62	49.5 / .30	80.2 / 0	74.7 / 0	62.9 / .176
355M 미세조정	93.23	94.87	99.0	72.79	97.115	94.479	91.91	SOTA
SOTA	96.8*	95.51*	99.38*	76.26**	97.6*	98.45*	94

모델 크기와 사전학습 데이터의 증가는 작업 간 제로샷 성능을 향상시킨다.
DBPedia에서 355M GPT-2 모델은 무작위 베이스라인 대비 최대 45.2% 절대적 개선을 달성한다.
여러 데이터셋(DBPedia, AGNews, Yahoo Answers)에서 성능은 무작위 및 다수결 베이스라인을 넘지만 미세조정되거나 최첨단 수준보다 낮다.
서술자 품질은 정확도에 크게 영향을 미친다; 나쁜 서술자는 큰 하락(최대 절대 27%)과 더 많은 OOV 출력 가능.
탐욕적 디코딩은 top-k/top-p 같은 샘플링 방법에 비해 OOV 출력이 적다.
희귀한 OOV 출력은 일반적으로 잘못된 조합이거나 빈 문자열이며, 더 큰 모델은 이러한 오류를 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.