[論文レビュー] Label Supervised LLaMA Finetuning
この論文は、テキスト分類とNERのためのラベル監督付き適応を行うLS-LLaMAおよびLS-unLLaMAを提案し、BERT/RoBERTaを上回る強力な利得を示し、マスクを除去した場合には最先端のNERにさえ迫る。
The recent success of Large Language Models (LLMs) has gained significant attention in both academia and industry. Substantial efforts have been made to enhance the zero- and few-shot generalization capabilities of open-source LLMs through finetuning. Currently, the prevailing approach is instruction-tuning, which trains LLMs to complete real-world tasks by generating responses guided by natural language instructions. It is worth noticing that such an approach may underperform in sequence and token classification tasks. Unlike text generation tasks, classification tasks have a limited label space, where precise label prediction is more appreciated than generating diverse and human-like responses. Prior research has unveiled that instruction-tuned LLMs cannot outperform BERT, prompting us to explore the potential of leveraging latent representations from LLMs for supervised label prediction. In this paper, we introduce a label-supervised adaptation for LLMs, which aims to finetuning the model with discriminant labels. We evaluate this approach with Label Supervised LLaMA (LS-LLaMA), based on LLaMA-2-7B, a relatively small-scale LLM, and can be finetuned on a single GeForce RTX4090 GPU. We extract latent representations from the final LLaMA layer and project them into the label space to compute the cross-entropy loss. The model is finetuned by Low-Rank Adaptation (LoRA) to minimize this loss. Remarkably, without intricate prompt engineering or external knowledge, LS-LLaMA substantially outperforms LLMs ten times its size in scale and demonstrates consistent improvements compared to robust baselines like BERT-Large and RoBERTa-Large in text classification. Moreover, by removing the causal mask from decoders, LS-unLLaMA achieves the state-of-the-art performance in named entity recognition (NER). Our work will shed light on a novel approach to adapting LLMs for various downstream tasks.
研究の動機と目的
- 指示学習がシーケンスおよびトークン分類タスクで性能が低下する可能性がある理由を動機づける。
- Latent representationsを識別的ラベル空間へ写像するLLaMAのラベル監督適応を提案。
- Latent LLaMA 表現は、より大きな生成型LLMや堅牢なベースラインを複数のベンチマークで上回ることを示す。
- 因果マスクを除去する影響を調べ、NERのようなトークンレベルタスクを改善する。
提案手法
- 最終LLaMA層から潜在表現を抽出し、それをラベル空間に射影してクロスエントロピー損失を計算。
- クロスエントロピー損失を最小化するためにLoRAで微調整。
- トークンタスクのため、LlamaForTokenClassificationを用いてトークンレベル分類を可能にし、任意で因果マスクを除去して双方向アテンションを可能にするLS-unLLaMA。
- 最大、平均、最後の3つのプーリング法を試し、マスクなしモデルでは最大プーリングが最適であることを発見。
実験結果
リサーチクエスチョン
- RQ1LLaMAの潜在表現はテキスト分類における識別可能なラベル予測に効果的に使用できるか?
- RQ2LLaMAのラベル監督ファインチューニングは標準ベンチマークで指示学習や弁別モデルを上回るか?
- RQ3因果マスクを除去することが、NERのようなトークン分類タスクにどのような影響を与えるか?
- RQ4LS-LLaMAとLS-unLLaMAは多言語・小データ regimesでどう機能するか?
- RQ5ラベル監視の下で、より小さなLLaMA-2モデル(7B)は、より大きな識別モデルを上回るのに十分か?
主な発見
| モデル | SST2 | AGNews | Twitter Fin | SST5 |
|---|---|---|---|---|
| LS-LLaMA-2-7B | 96.67 | 95.38 | 91.87 | 62.31 |
| LS-LLaMA-2-13B | 96.90 | 95.66 | 91.20 | 62.17 |
| LS-unLLaMA-2-7B | 97.36 | 95.68 | 91.54 | 60.50 |
| LS-unLLaMA-2-13B | 92.77 | 95.44 | 87.94 | 52.99 |
- LS-LLaMA-2-7Bは SST2, AGNews, Twitter-Fin, SST5 でそれぞれ96.67, 95.38, 91.87, 62.31 を達成。
- LS-LLaMA-2-13Bは SST2, AGNews, Twitter-Fin, SST5 でそれぞれ96.90, 95.66, 91.20, 62.17 。
- LS-unLLaMA-2-7Bは SST2, AGNews, Twitter-Fin, SST5 でそれぞれ97.36, 95.68, 91.54, 60.50 。
- LS-unLLaMA-2-13Bは SST2, AGNews, Twitter-Fin, SST5 でそれぞれ92.77, 95.44, 87.94, 52.99 。
- NER では、因果マスクを除去した場合にLS-unLLaMAはLS-LLaMA、BERT、RoBERTaのベースラインを上回り、顕著な利得が見られる。
- デコーダから因果マスクを除去することで、CoNNL2003およびOntoNotes V5でLS-unLLaMAの最先端NER結果を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。