QUICK REVIEW

[论文解读] Personalized Large Language Models

Stanisław Woźniak, Bartłomiej Koptyra|arXiv (Cornell University)|Feb 14, 2024

Topic Modeling被引用 7

一句话总结

本论文比较微调与零-shot/少-shot推理在个性化大型语言模型以处理主观任务（情感识别和仇恨言论检测）上的效果，并发现个性化微调在多种架构和数据集上均能带来显著的性能提升。

ABSTRACT

Large language models (LLMs) have significantly advanced Natural Language Processing (NLP) tasks in recent years. However, their universal nature poses limitations in scenarios requiring personalized responses, such as recommendation systems and chatbots. This paper investigates methods to personalize LLMs, comparing fine-tuning and zero-shot reasoning approaches on subjective tasks. Results demonstrate that personalized fine-tuning improves model reasoning compared to non-personalized models. Experiments on datasets for emotion recognition and hate speech detection show consistent performance gains with personalized methods across different LLM architectures. These findings underscore the importance of personalization for enhancing LLM capabilities in subjective text perception tasks.

研究动机与目标

为主观文本感知任务（如情感识别和仇恨言论检测）推动LLMs的个性化
评估并比较个性化微调与零-shot和少-shot情境学习。
在多种LLM架构和两个公开数据集上评估性能。
提供关于何时以及如何提升性能的个性化实用指南。
发布代码和数据集以支持可重复性。

提出的方法

在微调或提示阶段使用用户上下文（如用户ID）来形式化个性化。
比较非个性化基线：指令微调查询、新的带微调的分类头以及用于标签的生成式微调。
通过上下文学习（Q-NS）在提示中包含N个示例来实现少-shot个性化。
通过将用户ID融入训练，开发个性化分类（CLS-P）和个性化语言模型（LM-P）
在GoEmotions和Unhealthy Conversations数据集上对多种解码器为主/编码器-解码器的LLM（Phi-2、StableLM、Mistral、Flan-T5、GPT-3.5、GPT-4）进行实验。
使用4位NF4量化、qLoRA适配器和混合精度训练来管理资源。

实验结果

研究问题

RQ1在主观任务中，个性化微调（CLS-P、LM-P）是否始终优于非个性化基线（CLS、LM、Q-0S）？
RQ2在不同标签复杂度的数据集（GoEmotions 与 Unhealthy Conversations）以及不同LLM架构下，个性化收益如何变化？
RQ3少-shot上下文个性化是否足够，还是需要完全微调以最大化主观任务的性能？
RQ4不同模型架构（解码器为主/编码器-解码器）在分类与语言建模任务中的个性化响应有何不同？
RQ5在主观文本分析中部署个性化LLM时，会出现哪些实用指南？

主要发现

模型	设置	GoEmotions F1-macro (%)	Unhealthy Conversations F1-macro (%)
Phi-2	LM	28.99	34.97
Phi-2	LM-P	32.87	45.89
Phi-2	CLS	30.03	31.91
Phi-2	CLS-P	43.07	48.26
StableLM	3B	26.55	29.61
StableLM	3B LM-P	31.72	48.54
StableLM	3B CLS	27.42	16.92
StableLM	3B CLS-P	41.44	44.68
Mistral	7B	28.36	34.29
Mistral	7B LM-P	34.52	51.65
Mistral	7B CLS	26.77	23.10
Mistral	7B CLS-P	43.94	52.83

个性化微调在两个数据集上均显著优于非个性化基线；在Unhealthy Conversations上的增益更大。
在GoEmotions中，CLS-P通常优于LM-P，凸显标签复杂性对个性化效果的影响。
解码器为主的模型（如Mistral）在扩展的用户上下文方面比一些指令微调模型收益更大，但编码器-解码器模型（如Flan-T5）在CLS-P/LM-P设置中通过微调可能表现更出色。
GoEmotions：CLS-P在Phi-2上达到最高43.07%的F1宏平均；LM-P在Phi-2上达到32.87%。Unhealthy Conversations：CLS-P在Phi-2上达到48.26%，LM-P为45.89%。
在各种模型和设置中，个性化方法通常优于非个性化方法，微调带来最显著的提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。