[논문 리뷰] Text Classification via Large Language Models
CARP는 Clue And Reasoning Prompting을 도입하여 (1) 단서 수집, (2) 진단적 추론, (3) 최종 결정으로 LLM 기반 텍스트 분류를 강화하며, 토큰 한계를 극복하기 위해 fine-tuned 모델의 kNN 기반 시연을 사용하고, 여러 벤치마크에서 SOTA를 달성하고 자원 적고 도메인 적응에서도 강력한 성능을 보인다.
Despite the remarkable success of large-scale Language Models (LLMs) such as GPT-3, their performances still significantly underperform fine-tuned models in the task of text classification. This is due to (1) the lack of reasoning ability in addressing complex linguistic phenomena (e.g., intensification, contrast, irony etc); (2) limited number of tokens allowed in in-context learning. In this paper, we introduce Clue And Reasoning Prompting (CARP). CARP adopts a progressive reasoning strategy tailored to addressing the complex linguistic phenomena involved in text classification: CARP first prompts LLMs to find superficial clues (e.g., keywords, tones, semantic relations, references, etc), based on which a diagnostic reasoning process is induced for final decisions. To further address the limited-token issue, CARP uses a fine-tuned model on the supervised dataset for $k$NN demonstration search in the in-context learning, allowing the model to take the advantage of both LLM's generalization ability and the task-specific evidence provided by the full labeled dataset. Remarkably, CARP yields new SOTA performances on 4 out of 5 widely-used text-classification benchmarks, 97.39 (+1.24) on SST-2, 96.40 (+0.72) on AGNews, 98.78 (+0.25) on R8 and 96.95 (+0.6) on R52, and a performance comparable to SOTA on MR (92.39 v.s. 93.3). More importantly, we find that CARP delivers impressive abilities on low-resource and domain-adaptation setups. Specifically, using 16 examples per class, CARP achieves comparable performances to supervised models with 1,024 examples per class.
연구 동기 및 목표
- 대형 언어 모델(LLMs)을 활용한 텍스트 분류의 필요성을 제시하되, 기존 미세조정 모델의 한계를 고려한다.
- CARP(Clue And Reasoning Prompting)를 제안하여 추론을 단서 수집, 진단적 추론, 최종 결정으로 분해한다.
- 맥락 학습에서의 토큰 한계 문제를 해결하기 위해 fine-tuned 모델의 kNN 기반 시연을 도입한다.
- 제로샷, 소수샷, 전체 데이터 설정에서 주요 텍스트 분류 벤치마크에서 최첨단 성능을 보여준다.
- 저자원 및 도메인 적응 환경에서 CARP의 강건성을 입증한다.
제안 방법
- 텍스트 분류 추론을 세 단계로 분해한다: 단서 수집(키워드, 어조, 관계), 단서와 입력에서 진단적 추론 유도, 최종 레이블 결정.
- 시연을 포함한 맥락 학습을 사용하고, fine-tuned RoBERTa 기반 인코더에서 k 최근 이웃(kNN)을 검색해 작업 특화 시연을 형성하여 토큰 한계를 완화한다.
- 레이어링된 프롬프트 전략(CARP)을 채택하여 LLM이 먼저 피상적 단서를 식별하고, 이어 이를 추론한 뒤 최종 라벨을 출력한다.
- 백본으로 InstructGPT-3(text-davinci-003)를 사용한 제로샷, 소수샷, 전체 데이터 실험을 수행하고 vanilla ICL, CoT, 감독 기법과 비교한다.
- 다양한 샘플링 전략(Random, SimCSE kNN-Sampler, FT kNN-Sampler)을 통해 시연을 수행하고, 다수 투표, 가중 확률 투표와 같은 결합 방식을 제안한다.
- SST-2, AGNews, R8, R52, MR 데이터세트에서 평가하고 5회 실행의 평균 및 표준편차를 보고한다.
실험 결과
연구 질문
- RQ1CARP가 단서와 진단적 추론으로 추론을 분해하는 것이 표준 프롬프트를 넘어 텍스트 분류를 개선할 수 있는가?
- RQ2작업에 맞춰 조정된 인코더의 kNN 시연을 사용하는 것이 토큰 제약 하에서 맥락 학습을 개선하는가?
- RQ3CARP는 vanilla 프롬프팅, 체인 오브 생각(CoT) 프롬 prompting, 감독 기반 기법과 비교했을 때 데이터셋 및 자원 설정에 따라 어떻게 성능이 나타나는가?
- RQ4CARP는 도메인 이동 및 저자원 상황에 대해 얼마나 강건한가?
- RQ5다양한 시연 샘플링 전략과 투표 방식이 CARP 성능에 어떤 영향을 미치는가?
주요 결과
| 모델 | SST-2 | AGNews | R8 | R52 | MR | Average |
|---|---|---|---|---|---|---|
| Supervised Methods | 95.99 | 95.55 | 97.76 | 96.42 | 91.16 | 95.38 |
| RoBERTa-Large | 95.99 | 95.55 | 97.76 | 96.42 | 91.16 | 95.38 |
| RoBERTa-GCN | 95.80 | 95.68 | 98.20 | 96.10 | 89.70 | 95.10 |
| XLNet | 96.10 | 95.55 | - | - | - | - |
| VLAWE | - | - | - | - | 93.3 | - |
| GCN-SB | - | - | 98.53 | 96.35 | 87.59 | - |
| Table (Note: Fig/Table context) | - | - | - | - | - | - |
| Zero-shot Setting - Vanilla | 91.55 | 90.72 | 90.19 | 89.06 | 88.69 | 90.04 |
| Zero-shot Setting - CoT | 92.11 | 91.25 | 90.48 | 91.24 | 89.37 | 90.89 |
| Zero-shot Setting - CARP | 93.01 | 92.60 | 91.75 | 91.80 | 89.94 | 91.82 |
| Few-shot Setting - Random Sampler - Vanilla | 92.36 | 91.74 | 91.58 | 91.56 | 89.15 | 91.28 |
| Few-shot Setting - Random Sampler - CoT | 94.56 | 95.02 | 92.49 | 92.03 | 89.91 | 92.80 |
| Few-shot Setting - Random Sampler - CARP | 96.20 | 95.18 | 97.60 | 96.19 | 90.03 | 95.04 |
| Few-shot Setting - SimCSE kNN-Sampler - Vanilla | 93.90 | 93.50 | 94.36 | 92.40 | 89.59 | 94.05 |
| Few-shot Setting - SimCSE kNN-Sampler - CoT | 94.21 | 94.28 | 95.07 | 92.98 | 90.27 | 93.69 |
| Few-shot Setting - SimCSE kNN-Sampler - CARP | 95.69 | 95.25 | 97.83 | 96.27 | 90.74 | 95.16 |
| Few-shot Setting - FT kNN-Sampler - Vanilla | 94.01 | 94.14 | 95.57 | 95.79 | 90.90 | 94.08 |
| Few-shot Setting - FT kNN-Sampler - CoT | 95.48 | 94.89 | 95.59 | 95.89 | 90.17 | 94.40 |
| Few-shot Setting - FT kNN-Sampler - CARP | 96.80 | 95.99 | 98.29 | 96.82 | 91.90 | 95.97 |
| Few-shot Setting - CARP (WP Vote) | 97.39 | 96.40 | 98.78 | 96.95 | 92.39 | 96.38 |
- CARP는 다섯 벤치마크 중 네 벤치마크에서 새로운 SOTA를 달성: SST-2, AGNews, R8, R52; MR는 소폭의 차이로 경쟁력이 있다.
- 제로샷 CARP와 소수샷 CARP는 일관되게 Vanilla 프롬프팅과 CoT 기법을 능가한다.
- 클래스당 16개의 시연을 사용할 경우 CARP는 훨씬 큰 라벨링 데이터로 학습된 감독 모델과 유사한 성능에 도달하며; 저자원 구간에서 CARP는 전체 데이터 감독 성능에 근접한다.
- fine-tuned 인코더(FT RoBERTa)를 이용한 kNN 기반 시연 검색은 태스크 특화 검색에서 SimCSE와 같은 시맨틱 인코더보다 우수하다.
- WP 투표는 추가적인 성능 향상을 가져오며 예를 들어 CARP (WP Vote)는 SST-2에서 97.39, AGNews에서 96.40, R8에서 98.78, R52에서 96.95, MR에서 92.39를 달성한다.
- CARP는 도메인 적응 능력이 강하며, 다른 도메인에서 시연이 올 때도 저하가 제한적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.