[论文解读] Modifying Memories in Transformer Models
该论文为Transformer定义了知识修改任务,提出对特定事实进行受限微调,在保持对未修改事实的性能的同时更新隐式存储在模型权重中的特定事实,并评估了多种基线和记忆增强变体。
Large Transformer models have achieved impressive performance in many natural language tasks. In particular, Transformer based language models have been shown to have great capabilities in encoding factual knowledge in their vast amount of parameters. While the tasks of improving the memorization and generalization of Transformers have been widely studied, it is not well known how to make transformers forget specific old facts and memorize new ones. In this paper, we propose a new task of \emph{explicitly modifying specific factual knowledge in Transformer models while ensuring the model performance does not degrade on the unmodified facts}. This task is useful in many scenarios, such as updating stale knowledge, protecting privacy, and eliminating unintended biases stored in the models. We benchmarked several approaches that provide natural baseline performances on this task. This leads to the discovery of key components of a Transformer model that are especially effective for knowledge modifications. The work also provides insights into the role that different training phases (such as pretraining and fine-tuning) play towards memorization and knowledge modification.
研究动机与目标
- 激励并形式化在 Transformer 参数中更新存储的特定事实知识的问题,而不降低现有知识的表现。
- 创建基于 T-REx 和 zsRE 的基准,用于评估候选方法在知识修改能力上的表现。
- 研究基线方法并识别对大型 Transformer 模型进行记忆修改的有效策略。
- 分析不同训练阶段(预训练 vs 微调)和模型组件如何影响记忆与修改。
提出的方法
- 将知识修改表述为一个有约束的优化问题,目标是更新子集事实。
- 提出对修改证据的受限微调,结合权重空间约束,以限制对未修改事实的干扰。
- 尝试对特定 Transformer 块进行微调以及受限优化(可选用 l_infinity 或 Fisher 信息作为备选)。
- 评估基线方法,包括重新训练、对修改事实进行微调以及混合批次,与跨多个模型的受限微调进行对比。
实验结果
研究问题
- RQ1Transformer 模型是否能够在保持对未修改事实的准确性的同时,可靠地修改选定的事实知识?
- RQ2哪些建模选择(要微调的层、约束、训练方案)在修改成功率与遗忘风险之间取得最佳平衡?
- RQ3显式记忆架构(FaE)在更新事实方面与标准 Transformer 模型相比有何差异?
- RQ4预训练与微调在记忆与知识修改中的作用是什么?
- RQ5当修改的事实数量增多时,受限微调方法的可扩展性如何?
主要发现
- 在修改证据上进行带有 l_infinity 权重约束的受限微调,在更新事实的同时有效地保持未修改知识。
- 最佳结果通常来自对特定层进行修改,而不是对整个模型,且最优层可能会随着修改事实数量和模型状态而变化。
- 仅对 FaE 的符号记忆进行微调不足以取得最佳效果;通过参数微调来更新隐式知识在多数设置下能实现更好的权衡。
- 在各模型中,受限的 FTM(对修改事实进行约束微调)在保持未修改事实方面优于无约束微调和混合批次策略。
- 记忆增强的 FaE 可以达到具有竞争力的修改事实准确度,但在整体知识修改权衡方面并不始终优于受限的 BERT-Large。
- 该研究提供了一个基准,显示受限层级更新和选择性层微调在知识修改中是有效的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。