Skip to main content
QUICK REVIEW

[论文解读] Memory-Based Model Editing at Scale

Eric Mitchell, Charles P. Lin|arXiv (Cornell University)|Jun 13, 2022
Topic Modeling被引用 31
一句话总结

SERAC 引入一种半参数化、基于内存的模型编辑器,它把编辑存储在显式内存中,并使用一个范围分类器以及一个对比况模型来调制基础模型的预测,在 QA、事实核查和对话任务上相比基于梯度的编辑器表现出色。

ABSTRACT

Even the largest neural networks make errors, and once-correct predictions can become invalid as the world changes. Model editors make local updates to the behavior of base (pre-trained) models to inject updated knowledge or correct undesirable behaviors. Existing model editors have shown promise, but also suffer from insufficient expressiveness: they struggle to accurately model an edit's intended scope (examples affected by the edit), leading to inaccurate predictions for test inputs loosely related to the edit, and they often fail altogether after many edits. As a higher-capacity alternative, we propose Semi-Parametric Editing with a Retrieval-Augmented Counterfactual Model (SERAC), which stores edits in an explicit memory and learns to reason over them to modulate the base model's predictions as needed. To enable more rigorous evaluation of model editors, we introduce three challenging language model editing problems based on question answering, fact-checking, and dialogue generation. We find that only SERAC achieves high performance on all three problems, consistently outperforming existing approaches to model editing by a significant margin. Code, data, and additional project information will be made available at https://sites.google.com/view/serac-editing.

研究动机与目标

  • 在变化环境中,说明需要快速、针对性的部署后模型更新的必要性。
  • 解决基于梯度的编辑器在编辑范围与可扩展性方面的局限性。
  • 提出一个半参数化编辑框架,将编辑推理与基础模型参数解耦。
  • 在具有挑战的编辑任务上进行评估,以展示鲁棒性和可扩展性。

提出的方法

  • 在显式内存中存储用户提供的编辑,而不修改基础模型参数。
  • 引入一个范围分类器以判断测试输入是否落在编辑的范围内。
  • 在适用时加入对比况模型,预测在编辑后世界中的标签。
  • 用半参数编辑器包裹基础模型,在输入落在范围内时使用最相关的编辑来引导预测。
  • 分别使用监督目标训练范围分类器和对比况模型。
  • 在 QA、QA-hard、fact-checking 和 ConvSent 对话编辑任务上进行评估。

实验结果

研究问题

  • RQ1基于内存的编辑器是否能够准确判断哪些测试输入落在存储编辑的范围内?
  • RQ2以编辑为条件的对比况模型是否在提高在范围内输入的预测准确性的同时,保持对范围外输入的行为?
  • RQ3在多重同时编辑与多种任务中,SERAC 相较于基于梯度的编辑器的表现如何?

主要发现

  • SERAC 在 QA、QA-hard、FC 与 ConvSent 任务中实现高编辑成功率。
  • 在大量同时编辑时,SERAC 仍能维持性能,而基线方法下降,显示出可扩展性。
  • 范围分类器有效减少编辑之间以及与范围外输入之间的干扰。
  • 解耦设计允许在不同基础模型之间重复使用编辑器,而无需为每个模型重新训练编辑器。
  • 在各项任务中,SERAC 始终显著优于现有的编辑方法。
  • 分类器架构(例如 cross-attention 与 embedding)会影响性能,在较困难的设置中,较丰富的分类器可带来更好的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。