[论文解读] Beyond Perplexity: A Lightweight Benchmark for Knowledge Retention in Supervised Fine-Tuning
KR-Test 是一个轻量级、基于语料库的评估框架,通过比较事实正确与错误连续的模型似然度来衡量有监督微调过程中的事实保留,而不进行指令微调或解码。
Supervised Fine-Tuning (SFT) is a standard approach for injecting domain knowledge into Large Language Models (LLMs). However, relying on validation perplexity to monitor training is often insufficient, as it confounds stylistic mimicry with genuine factual internalization. To address this, we introduce the Knowledge Retention (KR) Test , a lightweight, corpus-grounded evaluation framework designed to distinguish factual learning from linguistics. KR-Test utilizes automatically generated contrastive examples to measure likelihood preferences for correct versus incorrect continuations, requiring no instruction tuning or generative decoding. We validate the framework's integrity through a "blind vs. oracle" baseline analysis. Furthermore, we demonstrate the diagnostic capabilities of KR-Test by analyzing the training dynamics of Low-Rank Adaptation (LoRA). By exposing the fine-grained dissociation between linguistic convergence and knowledge retention, KR-Test enhances the interpretability of fine-tuning dynamics.
研究动机与目标
- 在 SFT 中说明需要一个超越困惑度的事实保留信号。
- 引入一个基于语料库、基于似然性的评估(KR-Test)来衡量事实一致性。
- 提供一个验证框架(oracle 与 blind)并使用 KR-Test 分析 PEFT 动态。
提出的方法
- KR-Test 通过教师 LLM 对训练语料进行语义分割来提取问题。
- 对于每段文本,生成 N 个对比元组,包含一个上下文、一个事实正确的续写以及一个看似合理的错误续写。
- 在没有指令微调或解码的情况下,使用条件似然性来判断是否更偏好正确的续写。
- 基于 oracle 的验证使用 WikiText2 的原文段落来评估上限性能。
- 应用 KR-Test 研究 LoRA PEFT 配置,比较注意力层与前馈网络(FFN)层中的适配器放置。

实验结果
研究问题
- RQ1KR-Test 是否能够稳定地区分 SFT 过程中的事实保留与语言模仿?
- RQ2PEFT 配置(例如 LoRA 放置)如何影响通过 KR-Test 测量的事实知识保留?
- RQ3模型容量/规模如何影响初始与最终的 KR-Test 分数?
- RQ4KR-Test 结果与传统基于困惑度的评估之间的关系是什么?
主要发现
- KR-Test 提供一个区分度高、轻量级的事实保留信号,无需解码或指令微调。
- 基于 oracle 的验证显示近乎理想的上限准确率(99.56%),表明问题与原文段落对齐良好,对模型并非琐碎重复。
- 在相同预算下,将 LoRA 适配器放在 FFN 层比放在 Attention 层能获得更高的 KR-Test 分数,表明知识编码存在差异。
- 较大的基础模型显示出更高的初始和最终 KR 分数,提示知识规模随模型容量增长而提升,超越优化动力学。
- KR-Test 揭示了语言收敛与事实保留之间的错配,这在困惑度中并未体现。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。