[論文レビュー] Open, Closed, or Small Language Models for Text Classification?
小型の指導付きモデルはしばしば生成系LLMと同等または上回る。ファインチューニングされたオープンソースモデルはクローズドモデルに対抗できる一方、最も大きなクローズドモデルは最難問で優れる。
Recent advancements in large language models have demonstrated remarkable capabilities across various NLP tasks. But many questions remain, including whether open-source models match closed ones, why these models excel or struggle with certain tasks, and what types of practical procedures can improve performance. We address these questions in the context of classification by evaluating three classes of models using eight datasets across three distinct tasks: named entity recognition, political party prediction, and misinformation detection. While larger LLMs often lead to improved performance, open-source models can rival their closed-source counterparts by fine-tuning. Moreover, supervised smaller models, like RoBERTa, can achieve similar or even greater performance in many datasets compared to generative LLMs. On the other hand, closed models maintain an advantage in hard tasks that demand the most generalizability. This study underscores the importance of model selection based on task requirements
研究の動機と目的
- オープンソースモデルがテキスト分類タスクでクローズドLLMに匹敵するかを評価する。
- 複数のデータセットとタスクにわたり、3つのモデルクラス(オープンLLMs、クローズドLLMs、RoBERTa)を評価する。
- プロンプトとファインチューニング戦略が性能と一般化能力に影響を与えることを特定する。
- 異なるモデル選択のコストとエネルギー影響を分析する。
提案手法
- 3つのタスクにわたり、Llama 2 (13B, 70B)、GPT-3.5、GPT-4、RoBERTa (123M, 354M) のモデルタイプを比較する。
- ゼロショット、Few-shot、ファインチューニング済み設定を評価する。
- NER で結合データセットを用い、Llama 2(70B) に LoRA ファインチューニングを適用する。
- LLMs に対して2つのプロンプトスタイル(Serial、JSON)をテストし、プロンプト感度を分析する。
- タスクに適した指標(F1、精度、マクロ-F1)で性能を測定する。
- 訓練と推論のコストとエネルギー消費の分析を提供する。

実験結果
リサーチクエスチョン
- RQ1オープンソースの Llama 2 モデルは、NER、イデオロギー予測、誤情報タスクにおいて、クローズドLLMs(GPT-3.5、GPT-4)および RoBERTa とどう比較されるか?
- RQ2各モデルクラスで性能を最大化するプロンプト、Few-shot、ファインチューニング戦略は何か?
- RQ3ファインチューニングによってオープンソースモデルは競争力を回復するか、最も難しいタスクでクローズドモデルは優位を維持するか?
- RQ4実務で各モデルクラスを使用する際の相対的なコストとエネルギー影響は何か?
主な発見
| Task | Dataset | Llama 2 (13B) | Llama 2 (70B) | GPT-3.5 | GPT-4 | RoBERTa |
|---|---|---|---|---|---|---|
| NER | CoNLL 2003 | 57.8 ± 11.5 | 82.5 ± 5.6 | 79.8 ± 6.2 | – | 94.3 ± 3.5 |
| NER | WNUT 2017 | 35.4 ± 4.7 | 55.3 ± 4.7 | 54.6 ± 3.0 | 65.1 ± 3.0 | 59.6 ± 3.3 |
| NER | WikiNER-EN | 51.3 ± 8.8 | 76.1 ± 3.6 | 77.4 ± 0.6 | – | 96.2 ± 0.1 |
| Explicit Ideology | 2020 Election | 95.5 ± 1.1 | 96.3 ± 0.5 | 97.0 ± 0.8 | 97.6 ± 0.5 | 97.3 ± 0.6 |
| COVID-19 | COVID-19 | 90.2 ± 0.9 | 92.5 ± 1.3 | 94.7 ± 0.8 | 95.1 ± 0.6 | 91.2 ± 0.2 |
| Explicit Ideology | 2021 Election | 82.1 ± 1.6 | 85.2 ± 1.0 | 87.7 ± 1.3 | 89.4 ± 1.2 | 95.2 ± 0.7 |
| Implicit Ideology | 2020 Election | 71.9 ± 1.9 | 77.2 ± 1.0 | 92.9 ± 0.5 | – | 93.0 ± 0.2 |
| Implicit Ideology | COVID-19 | 44.6 ± 1.6 | 53.9 ± 1.5 | 65.9 ± 2.0 | 68.6 ± 1.9 | 70.0 ± 2.7 |
| Implicit Ideology | 2021 Election | 48.8 ± 3.5 | 55.7 ± 3.3 | 75.4 ± 1.6 | – | 82.3 ± 1.1 |
| Misinfo | LIAR | 50.0 ± 1.3 | 49.1 ± 2.5 | 68.5 ± 3.0 | 66.3 ± 2.1 | 61.5 ± 2.1 |
| Misinfo | CT-FAN-22 | 21.2 ± 3.2 | 25.4 ± 2.1 | 43.7 ± 1.9 | 42.0 ± 2.6 | 21.6 ± 2.0 |
- RoBERTa のような小型の監視学習モデルは、オープン/オープンソースの LLM や GPT-3.5 を同等かそれを上回ることが多く、状況によっては GPT-4 にも近づく。
- プロンプトエンジニアリングは LLM の性能に substantial に影響を与える。JSON プロンプトは GPT-3.5 の few-shot を向上させ、Serial プロンプトは Llama 2 のゼロショットを支援する。
- ファインチューニング済みのオープンソース Llama 2(70B) は GPT-3.5 を上回ることがあるが、RoBERTa はコスト、速度、透明性の点で全体的にしばしば優れている。
- 最も大きなクローズドモデルは、広範な一般化を要する最も難しいタスクで依然として優位を占める(例:特定の CT-FAN-22 の誤情報設定)。
- ファインチューニングを伴うオープンソースモデルは環境面とコスト面で利点を提供する。RoBERTa は多くのタスクで最も高いエネルギー効率とコスト特性を示す。
- RoBERTa はいくつかのデータセットで生成型 LLM と同等またはそれ以上の性能を示すことがあり、識別的・監督型アプローチの価値を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。