[論文レビュー] Text Classification via Large Language Models
CARPはClue And Reasoning Promptingを導入し、LLMを用いたテキスト分類を強化する。手順は(1)手がかりの収集、(2)診断的推論、(3)最終決定、の3段階で、トークン制限を克服するためにファインチューニング済みモデルからのkNNベースのデモンストレーションを使用する。複数のベンチマークでSOTAを達成し、低リソース/ドメイン適応性能も高い。
Despite the remarkable success of large-scale Language Models (LLMs) such as GPT-3, their performances still significantly underperform fine-tuned models in the task of text classification. This is due to (1) the lack of reasoning ability in addressing complex linguistic phenomena (e.g., intensification, contrast, irony etc); (2) limited number of tokens allowed in in-context learning. In this paper, we introduce Clue And Reasoning Prompting (CARP). CARP adopts a progressive reasoning strategy tailored to addressing the complex linguistic phenomena involved in text classification: CARP first prompts LLMs to find superficial clues (e.g., keywords, tones, semantic relations, references, etc), based on which a diagnostic reasoning process is induced for final decisions. To further address the limited-token issue, CARP uses a fine-tuned model on the supervised dataset for $k$NN demonstration search in the in-context learning, allowing the model to take the advantage of both LLM's generalization ability and the task-specific evidence provided by the full labeled dataset. Remarkably, CARP yields new SOTA performances on 4 out of 5 widely-used text-classification benchmarks, 97.39 (+1.24) on SST-2, 96.40 (+0.72) on AGNews, 98.78 (+0.25) on R8 and 96.95 (+0.6) on R52, and a performance comparable to SOTA on MR (92.39 v.s. 93.3). More importantly, we find that CARP delivers impressive abilities on low-resource and domain-adaptation setups. Specifically, using 16 examples per class, CARP achieves comparable performances to supervised models with 1,024 examples per class.
研究の動機と目的
- 大規模言語モデル(LLMs)をテキスト分類に活用する動機づけをする。
- CARP(Clue And Reasoning Prompting)を提案し、推論を手掛かり収集、診断的推論、最終決定の3つの要素に分解する。
- 文脈内学習のトークン制限に対処するため、ファインチューニング済みモデルからのkNNベースのデモンストレーションを取り入れる。
- ゼロショット、少数ショット、データ全量の設定で最先端の性能をテキスト分類ベンチマークで示す。
- 低リソースおよびドメイン適応設定におけるCARPの堅牢性を示す。
提案手法
- テキスト分類の推論を3つのステップに分解する:手掛かり(キーワード、トーン、関係)を収集し、手掛かりと入力から診断的推論を誘導し、最終ラベルを決定する。
- デモンストレーションを用いた文脈内学習を活用;ファインチューニング済みRoBERTaベースのエンコーダからk最近傍を取得してタスク特有のデモンストレーション(kNN)を形成し、トークン制限を緩和する。
- CARPという進行的プロンプティング戦略を採用し、LLMがまず表面的な手掛かりを特定し、それらについて推論し、最終的にラベルを出力する。
- バックボーンとしてInstructGPT-3(text-davinci-003)を用いたゼロショット・少数ショット・全データ実験を実施し、素のICL、CoT、監視付きベースラインと比較する。
- 複数のサンプリング戦略(Random、SimCSE kNN-Sampler、FT kNN-Sampler)でデモンストレーションを実施し、多数の実行を集約する投票方式(多数決、加重確率)を提案する。
- SST-2、AGNews、R8、R52、MRのデータセットを評価、平均と標準偏差を5回の実行で報告する。)
実験結果
リサーチクエスチョン
- RQ1CARPは手掛かりと診断推論に分解することで、標準的なプロンプティングを超えたテキスト分類の推論を改善できるか?
- RQ2トークン制約下でタスク適合エンコーダからのkNNデモンストレーションは文脈内学習を改善するか?
- RQ3CARPは素の prompting、Chain-of-Thought prompting、監督付きベースラインと比較してデータセットおよびリソース設定でどうなるか?
- RQ4CARPはドメインシフトや低リソース環境に対して頑健か?
- RQ5異なるデモンストレーションサンプリング戦略と投票方式がCARPの性能に与える影響は何か?
主な発見
| モデル | SST-2 | AGNews | R8 | R52 | MR | 平均 |
|---|---|---|---|---|---|---|
| Supervised Methods | 95.99 | 95.55 | 97.76 | 96.42 | 91.16 | 95.38 |
| RoBERTa-Large | 95.99 | 95.55 | 97.76 | 96.42 | 91.16 | 95.38 |
| RoBERTa-GCN | 95.80 | 95.68 | 98.20 | 96.10 | 89.70 | 95.10 |
| XLNet | 96.10 | 95.55 | - | - | - | - |
| VLAWE | - | - | - | - | 93.3 | - |
| GCN-SB | - | - | 98.53 | 96.35 | 87.59 | - |
| Table (Note: Fig/Table context) | - | - | - | - | - | - |
| Zero-shot Setting - Vanilla | 91.55 | 90.72 | 90.19 | 89.06 | 88.69 | 90.04 |
| Zero-shot Setting - CoT | 92.11 | 91.25 | 90.48 | 91.24 | 89.37 | 90.89 |
| Zero-shot Setting - CARP | 93.01 | 92.60 | 91.75 | 91.80 | 89.94 | 91.82 |
| Few-shot Setting - Random Sampler - Vanilla | 92.36 | 91.74 | 91.58 | 91.56 | 89.15 | 91.28 |
| Few-shot Setting - Random Sampler - CoT | 94.56 | 95.02 | 92.49 | 92.03 | 89.91 | 92.80 |
| Few-shot Setting - Random Sampler - CARP | 96.20 | 95.18 | 97.60 | 96.19 | 90.03 | 95.04 |
| Few-shot Setting - SimCSE kNN-Sampler - Vanilla | 93.90 | 93.50 | 94.36 | 92.40 | 89.59 | 94.05 |
| Few-shot Setting - SimCSE kNN-Sampler - CoT | 94.21 | 94.28 | 95.07 | 92.98 | 90.27 | 93.69 |
| Few-shot Setting - SimCSE kNN-Sampler - CARP | 95.69 | 95.25 | 97.83 | 96.27 | 90.74 | 95.16 |
| Few-shot Setting - FT kNN-Sampler - Vanilla | 94.01 | 94.14 | 95.57 | 95.79 | 90.90 | 94.08 |
| Few-shot Setting - FT kNN-Sampler - CoT | 95.48 | 94.89 | 95.59 | 95.89 | 90.17 | 94.40 |
| Few-shot Setting - FT kNN-Sampler - CARP | 96.80 | 95.99 | 98.29 | 96.82 | 91.90 | 95.97 |
| Few-shot Setting - CARP (WP Vote) | 97.39 | 96.40 | 98.78 | 96.95 | 92.39 | 96.38 |
- CARPは5つ中4つのベンチマークで新たなSOTAを達成(SST-2、AGNews、R8、R52); MRは小さなマージンで競合的。
- ゼロショットCARPと少数ショットCARPは一貫して素の promptingおよびCoTベースラインを上回る。
- クラスごとに16のデモンストレーションを用いると、CARPははるかに大規模なラベル付きデータで訓練された監督モデルと同等の性能に達する。低リソース設定ではCARPが全データ監督性能に近づく。
- ファインチューニング済みエンコーダ(FT RoBERTa)を使ったkNNベースのデモンストレーション取得は、Semanticsエンコーダ(SimCSE)よりもタスク特異的な検索で有利。
- WP投票はさらに結果を改善し、例としてCARP(WP Vote)はSST-2で97.39、AGNewsで96.40、R8で98.78、R52で96.95、MRで92.39を達成。
- CARPはドメイン適応能力が高く、デモが別ドメインから来ても劣化が限定的。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。