Skip to main content
QUICK REVIEW

[논문 리뷰] Text Classification via Large Language Models

Xiaofei Sun, Xiaoya Li|arXiv (Cornell University)|2023. 05. 15.
Topic Modeling인용 수 14
한 줄 요약

CARP는 Clue And Reasoning Prompting을 도입하여 (1) 단서 수집, (2) 진단적 추론, (3) 최종 결정으로 LLM 기반 텍스트 분류를 강화하며, 토큰 한계를 극복하기 위해 fine-tuned 모델의 kNN 기반 시연을 사용하고, 여러 벤치마크에서 SOTA를 달성하고 자원 적고 도메인 적응에서도 강력한 성능을 보인다.

ABSTRACT

Despite the remarkable success of large-scale Language Models (LLMs) such as GPT-3, their performances still significantly underperform fine-tuned models in the task of text classification. This is due to (1) the lack of reasoning ability in addressing complex linguistic phenomena (e.g., intensification, contrast, irony etc); (2) limited number of tokens allowed in in-context learning. In this paper, we introduce Clue And Reasoning Prompting (CARP). CARP adopts a progressive reasoning strategy tailored to addressing the complex linguistic phenomena involved in text classification: CARP first prompts LLMs to find superficial clues (e.g., keywords, tones, semantic relations, references, etc), based on which a diagnostic reasoning process is induced for final decisions. To further address the limited-token issue, CARP uses a fine-tuned model on the supervised dataset for $k$NN demonstration search in the in-context learning, allowing the model to take the advantage of both LLM's generalization ability and the task-specific evidence provided by the full labeled dataset. Remarkably, CARP yields new SOTA performances on 4 out of 5 widely-used text-classification benchmarks, 97.39 (+1.24) on SST-2, 96.40 (+0.72) on AGNews, 98.78 (+0.25) on R8 and 96.95 (+0.6) on R52, and a performance comparable to SOTA on MR (92.39 v.s. 93.3). More importantly, we find that CARP delivers impressive abilities on low-resource and domain-adaptation setups. Specifically, using 16 examples per class, CARP achieves comparable performances to supervised models with 1,024 examples per class.

연구 동기 및 목표

  • 대형 언어 모델(LLMs)을 활용한 텍스트 분류의 필요성을 제시하되, 기존 미세조정 모델의 한계를 고려한다.
  • CARP(Clue And Reasoning Prompting)를 제안하여 추론을 단서 수집, 진단적 추론, 최종 결정으로 분해한다.
  • 맥락 학습에서의 토큰 한계 문제를 해결하기 위해 fine-tuned 모델의 kNN 기반 시연을 도입한다.
  • 제로샷, 소수샷, 전체 데이터 설정에서 주요 텍스트 분류 벤치마크에서 최첨단 성능을 보여준다.
  • 저자원 및 도메인 적응 환경에서 CARP의 강건성을 입증한다.

제안 방법

  • 텍스트 분류 추론을 세 단계로 분해한다: 단서 수집(키워드, 어조, 관계), 단서와 입력에서 진단적 추론 유도, 최종 레이블 결정.
  • 시연을 포함한 맥락 학습을 사용하고, fine-tuned RoBERTa 기반 인코더에서 k 최근 이웃(kNN)을 검색해 작업 특화 시연을 형성하여 토큰 한계를 완화한다.
  • 레이어링된 프롬프트 전략(CARP)을 채택하여 LLM이 먼저 피상적 단서를 식별하고, 이어 이를 추론한 뒤 최종 라벨을 출력한다.
  • 백본으로 InstructGPT-3(text-davinci-003)를 사용한 제로샷, 소수샷, 전체 데이터 실험을 수행하고 vanilla ICL, CoT, 감독 기법과 비교한다.
  • 다양한 샘플링 전략(Random, SimCSE kNN-Sampler, FT kNN-Sampler)을 통해 시연을 수행하고, 다수 투표, 가중 확률 투표와 같은 결합 방식을 제안한다.
  • SST-2, AGNews, R8, R52, MR 데이터세트에서 평가하고 5회 실행의 평균 및 표준편차를 보고한다.

실험 결과

연구 질문

  • RQ1CARP가 단서와 진단적 추론으로 추론을 분해하는 것이 표준 프롬프트를 넘어 텍스트 분류를 개선할 수 있는가?
  • RQ2작업에 맞춰 조정된 인코더의 kNN 시연을 사용하는 것이 토큰 제약 하에서 맥락 학습을 개선하는가?
  • RQ3CARP는 vanilla 프롬프팅, 체인 오브 생각(CoT) 프롬 prompting, 감독 기반 기법과 비교했을 때 데이터셋 및 자원 설정에 따라 어떻게 성능이 나타나는가?
  • RQ4CARP는 도메인 이동 및 저자원 상황에 대해 얼마나 강건한가?
  • RQ5다양한 시연 샘플링 전략과 투표 방식이 CARP 성능에 어떤 영향을 미치는가?

주요 결과

모델SST-2AGNewsR8R52MRAverage
Supervised Methods95.9995.5597.7696.4291.1695.38
RoBERTa-Large95.9995.5597.7696.4291.1695.38
RoBERTa-GCN95.8095.6898.2096.1089.7095.10
XLNet96.1095.55----
VLAWE----93.3-
GCN-SB--98.5396.3587.59-
Table (Note: Fig/Table context)------
Zero-shot Setting - Vanilla91.5590.7290.1989.0688.6990.04
Zero-shot Setting - CoT92.1191.2590.4891.2489.3790.89
Zero-shot Setting - CARP93.0192.6091.7591.8089.9491.82
Few-shot Setting - Random Sampler - Vanilla92.3691.7491.5891.5689.1591.28
Few-shot Setting - Random Sampler - CoT94.5695.0292.4992.0389.9192.80
Few-shot Setting - Random Sampler - CARP96.2095.1897.6096.1990.0395.04
Few-shot Setting - SimCSE kNN-Sampler - Vanilla93.9093.5094.3692.4089.5994.05
Few-shot Setting - SimCSE kNN-Sampler - CoT94.2194.2895.0792.9890.2793.69
Few-shot Setting - SimCSE kNN-Sampler - CARP95.6995.2597.8396.2790.7495.16
Few-shot Setting - FT kNN-Sampler - Vanilla94.0194.1495.5795.7990.9094.08
Few-shot Setting - FT kNN-Sampler - CoT95.4894.8995.5995.8990.1794.40
Few-shot Setting - FT kNN-Sampler - CARP96.8095.9998.2996.8291.9095.97
Few-shot Setting - CARP (WP Vote)97.3996.4098.7896.9592.3996.38
  • CARP는 다섯 벤치마크 중 네 벤치마크에서 새로운 SOTA를 달성: SST-2, AGNews, R8, R52; MR는 소폭의 차이로 경쟁력이 있다.
  • 제로샷 CARP와 소수샷 CARP는 일관되게 Vanilla 프롬프팅과 CoT 기법을 능가한다.
  • 클래스당 16개의 시연을 사용할 경우 CARP는 훨씬 큰 라벨링 데이터로 학습된 감독 모델과 유사한 성능에 도달하며; 저자원 구간에서 CARP는 전체 데이터 감독 성능에 근접한다.
  • fine-tuned 인코더(FT RoBERTa)를 이용한 kNN 기반 시연 검색은 태스크 특화 검색에서 SimCSE와 같은 시맨틱 인코더보다 우수하다.
  • WP 투표는 추가적인 성능 향상을 가져오며 예를 들어 CARP (WP Vote)는 SST-2에서 97.39, AGNews에서 96.40, R8에서 98.78, R52에서 96.95, MR에서 92.39를 달성한다.
  • CARP는 도메인 적응 능력이 강하며, 다른 도메인에서 시연이 올 때도 저하가 제한적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.