[论文解读] Stance Detection on Social Media with Fine-Tuned Large Language Models
本论文通过对 ChatGPT、LLaMa-2 和 Mistral-7B 使用多组公开数据集,在零-shot、少-shot 和微调设置下评估立场检测,显示出强大表现,尤其是像 ChatGPT-ft 和 LLaMa-2/Mistral 变体这样的微调大型语言模型。
Stance detection, a key task in natural language processing, determines an author's viewpoint based on textual analysis. This study evaluates the evolution of stance detection methods, transitioning from early machine learning approaches to the groundbreaking BERT model, and eventually to modern Large Language Models (LLMs) such as ChatGPT, LLaMa-2, and Mistral-7B. While ChatGPT's closed-source nature and associated costs present challenges, the open-source models like LLaMa-2 and Mistral-7B offers an encouraging alternative. Initially, our research focused on fine-tuning ChatGPT, LLaMa-2, and Mistral-7B using several publicly available datasets. Subsequently, to provide a comprehensive comparison, we assess the performance of these models in zero-shot and few-shot learning scenarios. The results underscore the exceptional ability of LLMs in accurately detecting stance, with all tested models surpassing existing benchmarks. Notably, LLaMa-2 and Mistral-7B demonstrate remarkable efficiency and potential for stance detection, despite their smaller sizes compared to ChatGPT. This study emphasizes the potential of LLMs in stance detection and calls for more extensive research in this field.
研究动机与目标
- 评估社会媒体背景下从传统机器学习到 BERT 与大模型的立场检测方法的进展。
- 评估微调的大型语言模型(ChatGPT、LLaMa-2、Mistral-7B)在立场检测数据集上的表现。
- 比较在不同目标和主题上零-shot、少-shot以及完全微调的性能。
提出的方法
- 使用 LoRA 对 SemEval-2016、P-Stance 和 Twitter Stance 2020 数据集微调 ChatGPT、LLaMa-2(7B/13B)和 Mistral-7B。
- 以 10% 数据进行热身,3 个 epoch,学习率 LR=3e-4,批量大小 batch=128,在 A100 GPU 上使用 BF16。
- 对比并对照地评估零-shot 与少-shot 提示,采用指令调优版本进行比较。
- 以数据集特定模板和附录对提示进行支撑性提示。
- 在跨目标的评估中报告 F_avg 和 F1-macro 作为主要指标。
实验结果
研究问题
- RQ1微调的大型语言模型在社交媒体数据集的立场检测中与传统基线相比有何差异?
- RQ2训练规模和提示策略(零-shot、少-shot、微调)对立场检测性能有何影响?
- RQ3哪些目标(政治人物与主题)在 SemEval-2016、P-Stance 和 Twitter Stance 2020 的微调下获得最大改进?
主要发现
| 模型 | FM | HC | LA | A | CC | DT |
|---|---|---|---|---|---|---|
| BiCond | 61.4 | 59.8 | 54.5 | - | - | 59.0 |
| MemNet | 57.8 | 60.3 | 61.0 | - | - | - |
| AoA | 60.0 | 58.2 | 62.4 | - | - | - |
| TAN | 55.8 | 65.4 | 63.7 | 59.3 | 53.5 | - |
| ASGCN | 58.7 | 64.3 | 62.9 | - | - | 58.7 |
| AT-JSS-Lex | 61.5 | 68.3 | 68.4 | 69.2 | 59.2 | - |
| TPDG | 67.3 | 73.4 | 74.7 | - | - | 63.0 |
| TR-Tweet+COT | 70.6 | 78.7 | 63.8 | 72.9 | 54.1 | - |
| COLA | 69.1 | 75.9 | 71.0 | 62.3 | 64.0 | 71.2 |
| ChatGPT-ft | 79.7 | 83.4 | 72.6 | 81.3 | 86.2 | 70.4 |
| LLaMa-2-7b-ft | 73.3 | 84.2 | 71.2 | 78.9 | 69.8 | 72.0 |
| LLaMa-2-13b-ft | 76.0 | 86.5 | 72.5 | 76.9 | 80.4 | 70.9 |
| Mistral-7b-ft | 78.7 | 85.0 | 76.0 | 74.7 | 71.8 | 68.6 |
- 微调的大型语言模型在 SemEval-2016 上明显优于基线,ChatGPT-ft 在 FM 上达到 79.7,LLaMa-2-13b-ft 在 HC 上达到 86.5。
- 在 P-Stance 上,ChatGPT-ft 产生最高的 F_avg( Bernie 81.8, Biden 89.7, Trump 91.9)。
- 在 Twitter Stance 2020 上,ChatGPT-ft 的 F1-macro 为 85.1(Biden)和 85.6(Trump)。
- 零-shot 和少-shot 提示在迁移到微调模型时显示显著提升;例如 LLaMa-2-7b-ft 将 FM 从 51.6(零-shot)提升到 73.3(微调)。
- 训练规模实验表明,70% 数据就可在某些目标接近全量训练的效果(如 HC 的 LLaMa-2-7b)。
- 开源 LoRA 调整的大语言模型在立场检测方面具有竞争力,效率接近或超过基线,凸显成本效益高、分析准确。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。