QUICK REVIEW

[논문 리뷰] Open, Closed, or Small Language Models for Text Classification?

Hao Yu, Zachary Yang|arXiv (Cornell University)|2023. 08. 19.

Topic Modeling인용 수 16

한 줄 요약

요약: 더 작은 감독 학습 모델이 종종 생성형 LLM과 대등하거나 더 나은 성능을 보이며, 미세조정이 가능한 오픈소스 모델은 닫힌 모델에 맞설 수 있고, 가장 큰 닫힌 모델은 가장 어려운 작업에서 뛰어나다.

ABSTRACT

Recent advancements in large language models have demonstrated remarkable capabilities across various NLP tasks. But many questions remain, including whether open-source models match closed ones, why these models excel or struggle with certain tasks, and what types of practical procedures can improve performance. We address these questions in the context of classification by evaluating three classes of models using eight datasets across three distinct tasks: named entity recognition, political party prediction, and misinformation detection. While larger LLMs often lead to improved performance, open-source models can rival their closed-source counterparts by fine-tuning. Moreover, supervised smaller models, like RoBERTa, can achieve similar or even greater performance in many datasets compared to generative LLMs. On the other hand, closed models maintain an advantage in hard tasks that demand the most generalizability. This study underscores the importance of model selection based on task requirements

연구 동기 및 목표

오픈소스 모델이 텍스트 분류 작업에서 폐쇄형 LLM과 일치하는지 평가한다.
여러 데이터셋과 작업에 걸쳐 세 가지 모델 계층(오픈 LLM, 폐쇄형 LLM, RoBERTa)을 평가한다.
성능과 일반화에 영향을 미치는 프롬프트 및 미세조정 전략을 식별한다.
다양한 모델 선택의 비용 및 에너지 영향을 분석한다.

제안 방법

세 가지 작업에 걸쳐 Llama 2(13B, 70B), GPT-3.5, GPT-4, RoBERTa(123M, 354M)의 모델 유형을 비교한다.
제로샷, 소수샷, 미세조정 설정을 평가한다.
NER에서 결합 데이터셋으로 Llama 2(70B)에 LoRA 미세조정을 사용한다.
LLM에 대해 두 가지 프롬프트 스타일(Serial, JSON)을 테스트하고 프롬프트 민감도를 분석한다.
작업에 적합한 지표(F1, 정확도, 매크로-F1)로 성능을 측정한다.
학습 및 추론의 비용과 에너지 소비 분석을 제공한다.

Figure 1: The training loss curve for supervised finetuning with Llama2 70B Chat on the combined dataset.

실험 결과

연구 질문

RQ1오픈소스 Llama 2 모델이 NER, 이념 예측, 허위정보 작업에서 폐쇄형 LLM(GPT-3.5, GPT-4) 및 RoBERTa와 어떻게 비교되는가?
RQ2모든 모델 계층에서 성능을 극대화하는 프롬프트, 소수샷 및 미세조정 전략은 무엇인가?
RQ3오픈소스 모델이 미세조정을 통해 경쟁력을 회복하고, 폐쇄형 모델이 가장 어려운 작업에서 우위를 유지하는가?
RQ4실무에서 각 모델 계층의 상대적 비용 및 에너지 영향은 무엇인가?

주요 결과

작업	데이터셋	Llama 2 (13B)	Llama 2 (70B)	GPT-3.5	GPT-4	RoBERTa
NER	CoNLL 2003	57.8 ± 11.5	82.5 ± 5.6	79.8 ± 6.2	–	94.3 ± 3.5
NER	WNUT 2017	35.4 ± 4.7	55.3 ± 4.7	54.6 ± 3.0	65.1 ± 3.0	59.6 ± 3.3
NER	WikiNER-EN	51.3 ± 8.8	76.1 ± 3.6	77.4 ± 0.6	–	96.2 ± 0.1
명시적 이념	2020 선거	95.5 ± 1.1	96.3 ± 0.5	97.0 ± 0.8	97.6 ± 0.5	97.3 ± 0.6
COVID-19	COVID-19	90.2 ± 0.9	92.5 ± 1.3	94.7 ± 0.8	95.1 ± 0.6	91.2 ± 0.2
명시적 이념	2021 선거	82.1 ± 1.6	85.2 ± 1.0	87.7 ± 1.3	89.4 ± 1.2	95.2 ± 0.7
암시적 이념	2020 선거	71.9 ± 1.9	77.2 ± 1.0	92.9 ± 0.5	–	93.0 ± 0.2
암시적 이념	COVID-19	44.6 ± 1.6	53.9 ± 1.5	65.9 ± 2.0	68.6 ± 1.9	70.0 ± 2.7
암시적 이념	2021 선거	48.8 ± 3.5	55.7 ± 3.3	75.4 ± 1.6	–	82.3 ± 1.1
허위정보	LIAR	50.0 ± 1.3	49.1 ± 2.5	68.5 ± 3.0	66.3 ± 2.1	61.5 ± 2.1
허위정보	CT-FAN-22	21.2 ± 3.2	25.4 ± 2.1	43.7 ± 1.9	42.0 ± 2.6	21.6 ± 2.0

RoBERTa와 같은 소형 감독 학습 모델은 오픈/오픈소스 LLM 및 GPT-3.5를 종종 따라잡거나 능가하며, 특정 경우 GPT-4에 근접할 수도 있다.
프롬프트 엔지니어링은 LLM 성능에 상당한 영향을 미치며, JSON 프롬프트는 GPT-3.5의 소수샷 결과를 향상시키고, Serial 프롬프트는 제로샷에서 Llama 2에 도움이 될 수 있다.
미세조정된 오픈소스 Llama 2(70B)는 GPT-3.5를 이길 수 있지만, RoBERTa가 비용, 속도, 투명성 측면에서 대체로 우수한 경우가 많다.
가장 넓은 일반화를 요구하는 가장 도전적인 작업(예: 특정 CT-FAN-22 허위정보 설정)에서는 여전히 가장 큰 폐쇄형 모델이 선도한다.
미세조정이 가능한 오픈소스 모델은 환경적 및 비용상의 이점을 제공하며, RoBERTa는 많은 작업에서 최고의 에너지 효율 및 비용 프로파일을 보인다.
RoBERTa는 여러 데이터셋에서 생성적 LLM보다 비슷하거나 더 나은 성능을 달성할 수 있어, 판별적이고 감독된 접근의 가치를 부각시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.