QUICK REVIEW

[논문 리뷰] Large Language Models Are Zero-Shot Text Classifiers

Zhiqiang Wang, Yiran Pang|arXiv (Cornell University)|2023. 12. 02.

Topic Modeling인용 수 16

한 줄 요약

이 논문은 GPT 기반 모델 및 다른 베이스라인의 제로샷 텍스트 분류 성능을 다양한 데이터셋에서 평가하고, 네 가지 과제 중 세 가지에서 LLM이 제로샷 분류기로 작동할 수 있음을 보여준다.

ABSTRACT

Retrained large language models (LLMs) have become extensively used across various sub-disciplines of natural language processing (NLP). In NLP, text classification problems have garnered considerable focus, but still faced with some limitations related to expensive computational cost, time consumption, and robust performance to unseen classes. With the proposal of chain of thought prompting (CoT), LLMs can be implemented using zero-shot learning (ZSL) with the step by step reasoning prompts, instead of conventional question and answer formats. The zero-shot LLMs in the text classification problems can alleviate these limitations by directly utilizing pretrained models to predict both seen and unseen classes. Our research primarily validates the capability of GPT models in text classification. We focus on effectively utilizing prompt strategies to various text classification scenarios. Besides, we compare the performance of zero shot LLMs with other state of the art text classification methods, including traditional machine learning methods, deep learning methods, and ZSL methods. Experimental results demonstrate that the performance of LLMs underscores their effectiveness as zero-shot text classifiers in three of the four datasets analyzed. The proficiency is especially advantageous for small businesses or teams that may not have extensive knowledge in text classification.

연구 동기 및 목표

GPT, Llama2, GPT-3.5, 및 GPT-4를 다양한 데이터셋에서 제로샷 텍스트 분류에 대해 평가한다.
표준화된 프롬프트와 입력 하에서 제로샷 LLM과 전통 ML, DL, ZSL 방법을 비교한다.
제로샷 텍스트 분류를 배포하기 위한 실용적 통찰을 소규모 팀에 제공한다.
재현성과 커뮤니티 영향력을 촉진하기 위해 코드베이스를 오픈소스로 공개한다.

제안 방법

전통적인 텍스트 분류 워크플로를 설명하고 이를 GPT 모델을 이용한 제로샷 프롬 prompting과 대조한다.
LLM 실험 전반에 걸쳐 프롬프트와 샘플링 매개변수(temperature=0.01, top_p=0.9)를 표준화한다.
LLM에는 원시 테스트 데이터를 사용하고 전통 ML/DL 모델은 표준화된 전처리 입력을 사용한다.
다음 네 가지 데이터셋에서 모델을 평가한다: COVID-19 트윗, 경제 텍스트, 전자상거래 텍스트, SMS 스팸.
MNB, LG, RF, DT, KNN, RNN, LSTM, GRU, BART, DeBERTa, 및 LLMs(Llama2, GPT-3.5, GPT-4)와 비교한다.
ACC, F1, 및 AUC 지표를 보고 제로샷 성능을 분석한다.

Figure 1: Traditional text classification flow

실험 결과

연구 질문

RQ1제로샷 LLM이 전통 ML/DL 방법에 비해 경쟁력 있는 텍스트 분류 성능을 달성할 수 있는가?
RQ2제로샷 LLM이 감정 분석, 주제 분류, 스팸 과제에서 ZSL 베이스라인과 어떻게 비교되는가?
RQ3제로샷 텍스트 분류 성능을 극대화하는 프롬프팅 및 입력 처리 선택은 무엇인가?
RQ4라벨링 능력이 제한된 소규모 팀이나 비즈니스에 LLM이 더 유리한가?
RQ5데이터셋 전반에서 제로샷 LLM 분류에서 관찰되는 한계와 편향은 무엇인가?

주요 결과

모델	COVID-19 ACC	COVID-19 F1	COVID-19 AUC	경제 ACC	경제 F1	경제 AUC
MNB	0.3933	0.3639	0.5531	0.4533	0.3632	0.5563
LG	0.4333	0.3488	0.5404	0.5200	0.3066	0.5427
RF	0.4467	0.3184	0.6184	0.5133	0.3453	0.5990
DT	0.4733	0.4105	0.5602	0.4067	0.3446	0.5060
KNN	0.3800	0.3486	0.5216	0.4800	0.3620	0.5614
RNN	0.7400	0.7186	0.8925	0.6333	0.5797	0.7874
LSTM	0.7867	0.7619	0.8925	0.6533	0.4627	0.7293
GRU	0.8200	0.8106	0.9226	0.6933	0.5767	0.7928
BART	0.5000	0.3516	0.5882	0.4600	0.4258	0.6603
DeBERTa	0.5467	0.3805	0.5954	0.4467	0.4251	0.6385
Llama2	0.5267	0.4748	-	0.7000	0.5230	-
GPT-3.5	0.5333	0.4943	-	0.6667	0.6683	-
GPT-4	0.5267	0.5095	-	0.7133	0.7096	-

LLMs가 네 가지 데이터셋 중 세 가지에서 제로샷 텍스트 분류기로서 강력한 성능을 달성한다.
GPT-4는 일반적으로 다른 베이스라인보다 더 우수한 성능을 보이며, 특히 경제 텍스트 및 SMS 과제에서 두드러진다.
Llama2와 GPT-3.5는 감정 분석 및 전자상거래 분류에서 강점을 보이는 반면, 일부 COVID-19 감정 사례에서 LLM이 뒤처진다.
전통 ML 방법은 여러 과제에서 DL 및 LLM 기반 제로샷 접근법에 비해 종종 성능이 떨어진다.
프롬프팅 전략 및 데이터 전처리(예: 트윗 정리)가 모델 출력과 정확도에 크게 영향을 준다.
오픈소스 코드와 표준화된 평가가 재현성과 광범위한 채택을 가능하게 한다.

Figure 2: LLMs’ zero shot text classification flow

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.