QUICK REVIEW

[論文レビュー] Beyond Perplexity: A Lightweight Benchmark for Knowledge Retention in Supervised Fine-Tuning

Soheil Zibakhsh Shabgahi, Pedram Aghazadeh|arXiv (Cornell University)|Jan 7, 2026

Topic Modeling被引用数 0

ひとこと要約

KR-Test は、教師付きファインチューニング中の事実保持を、事実的に正しい継続と不正確な継続のモデル期待確率を比較することで測定する、指示チューニングやデコードなしの軽量なコーパス根拠付け評価フレームワークです。

ABSTRACT

Supervised Fine-Tuning (SFT) is a standard approach for injecting domain knowledge into Large Language Models (LLMs). However, relying on validation perplexity to monitor training is often insufficient, as it confounds stylistic mimicry with genuine factual internalization. To address this, we introduce the Knowledge Retention (KR) Test , a lightweight, corpus-grounded evaluation framework designed to distinguish factual learning from linguistics. KR-Test utilizes automatically generated contrastive examples to measure likelihood preferences for correct versus incorrect continuations, requiring no instruction tuning or generative decoding. We validate the framework's integrity through a "blind vs. oracle" baseline analysis. Furthermore, we demonstrate the diagnostic capabilities of KR-Test by analyzing the training dynamics of Low-Rank Adaptation (LoRA). By exposing the fine-grained dissociation between linguistic convergence and knowledge retention, KR-Test enhances the interpretability of fine-tuning dynamics.

研究の動機と目的

SFT における perplexity を超える事実保持シグナルの必要性を動機づける。
事実的一貫性を測定するコーパス根拠付け・尤度ベースの評価（KR-Test）を紹介する。
オラクル対ブラインドの検証フレームワークを提供し、KR-Test を用いた PEFT ダイナミクスを分析する。

提案手法

KR-Test は訓練コーパスから意味セグメンテーションを用いて Teacher LLM によって質問を導出する。
各パッセージについて、文脈、事実的に正しい継続、そしてもっともらしい不正確な継続の N 個の対比タプルを生成する。
指示チューニングやデコードを行わず、条件付き尤度を用いて正しい継続が優先されるかを判断する。
オラクルベースの検証は WikiText2 の出典段落を用いて上界性能を評価する。
KR-Test を用いて LoRA PEFT 設定を調査し、Attention 層と FFN 層におけるアダプタ配置を比較する。

Figure 1: KR-Test generation and validation pipeline. Questions are generated using segmented data and are used in validation to track the model’s learning progress.

実験結果

リサーチクエスチョン

RQ1KR-Test は SFT 中の事実保持と語学的模倣を確実に区別できるか？
RQ2PEFT 設定（例：LoRA の配置）は KR-Test によって測定される事実知識保持にどのような影響を与えるか？
RQ3モデル能力/スケールは初期および最終的な KR-Test スコアにどのような影響を与えるか？
RQ4KR-Test の結果と従来の perplexity ベース評価との関係はどうなるか？

主な発見

KR-Test は、デコードや指示チューニングを必要とせず、事実保持の識別的で軽量なシグナルを提供する。
オラクルベースの検証はほぼ理想的な上界精度（99.56%）を示し、質問が出典段落と整合しておりモデルにとって非自明であることを示唆する。
同一予算条件下で、Attention 層より FFN 層の FFN アダプタ配置が KR-Test スコアを高くする傾向があり、知識のエンコードに差があることを示唆する。
より大きなベースモデルは初期・最終の KR スコアが高く、最適化ダイナミクスを超えた知識拡張が見られることを示唆する。
KR-Test は、 perplexity では捉えきれない語彙的収束と事実保持の解離を明らかにする。

Figure 2: Parameter efficiency of LoRA module placement according to KR-Test.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。