[论文解读] Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets
PALMS 是一种迭代微调过程,使用面向价值的数据集来使语言模型对齐到预定义的目标价值,通过人工评估和毒性指标在不同 GPT-3 规模上进行评估。更大模型显示出更高的效果。
Language models can generate harmful and biased outputs and exhibit undesirable behavior according to a given cultural context. We propose a Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets, an iterative process to significantly change model behavior by crafting and fine-tuning on a dataset that reflects a predetermined set of target values. We evaluate our process using three metrics: quantitative metrics with human evaluations that score output adherence to a target value, toxicity scoring on outputs; and qualitative metrics analyzing the most common word associated with a given social category. Through each iteration, we add additional training dataset examples based on observed shortcomings from evaluations. PALMS performs significantly better on all metrics compared to baseline and control models for a broad range of GPT-3 language model sizes without compromising capability integrity. We find that the effectiveness of PALMS increases with model size. We show that significantly adjusting language model behavior is feasible with a small, hand-curated dataset.
研究动机与目标
- 促进减少有害输出,并使语言模型的行为与文化价值观保持一致。
- 提出一个基于迭代数据集的微调过程,以引导模型行为趋向预定义的价值观。
- 使用多种指标对 PALMS 进行评估,包括人工判断、毒性评分以及定性分析。
- 展示模型规模如何影响价值对齐的有效性。
提出的方法
- 开发一个迭代的 PALMS 过程,在反映目标价值的数据集上对模型进行微调。
- 基于评估中观察到的不足,设计并扩展训练数据。
- 结合定量指标、人工评估、毒性评分和定性词汇联想分析。
- 在若干 GPT-3 规模上,将基于 PALMS 的模型与基线模型和对照模型进行比较。
- 证明 PALMS 可以用一个小型、手工策划的数据集对行为进行有意义的调整。
实验结果
研究问题
- RQ1PALMS 是否能提升语言模型输出对预定义目标价值的遵循度?
- RQ2在不同模型规模下,PALMS 对毒性和有害输出有何影响?
- RQ3PALMS 的有效性是否会随更大语言模型的规模而提升?
- RQ4一个小型、手工策划的数据集是否能够在不妥协能力的前提下实现显著的价值对齐?
主要发现
- 在广泛的 GPT-3 规模范围内,PALMS 在所有评估指标上明显优于基线和对照模型。
- PALMS 的有效性随模型大小增加而提升。
- 使用一个小型、手工策划的数据集对语言模型行为进行显著调整是可行的。
- 评估包括带有人为判断的定量指标、毒性评分,以及对词语联想的定性分析。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。