QUICK REVIEW

[논문 리뷰] Beyond Perplexity: A Lightweight Benchmark for Knowledge Retention in Supervised Fine-Tuning

Soheil Zibakhsh Shabgahi, Pedram Aghazadeh|arXiv (Cornell University)|2026. 01. 07.

Topic Modeling인용 수 0

한 줄 요약

KR-Test는 경량의, 말뭉치에 기초한 평가 프레임워크로, supervised fine-tuning 중 사실적 유지(factual retention)를 측정하며, 사실적으로 올바른 연속과 잘못된 연속의 모델 가능도(likelihoods)를 비교하고, instruction tuning이나 decoding 없이 수행됩니다.

ABSTRACT

Supervised Fine-Tuning (SFT) is a standard approach for injecting domain knowledge into Large Language Models (LLMs). However, relying on validation perplexity to monitor training is often insufficient, as it confounds stylistic mimicry with genuine factual internalization. To address this, we introduce the Knowledge Retention (KR) Test , a lightweight, corpus-grounded evaluation framework designed to distinguish factual learning from linguistics. KR-Test utilizes automatically generated contrastive examples to measure likelihood preferences for correct versus incorrect continuations, requiring no instruction tuning or generative decoding. We validate the framework's integrity through a "blind vs. oracle" baseline analysis. Furthermore, we demonstrate the diagnostic capabilities of KR-Test by analyzing the training dynamics of Low-Rank Adaptation (LoRA). By exposing the fine-grained dissociation between linguistic convergence and knowledge retention, KR-Test enhances the interpretability of fine-tuning dynamics.

연구 동기 및 목표

SFT에서 perplexity를 넘어선 사실 유지 신호의 필요성을 제시한다.
사실적 일관성을 측정하기 위한 말뭉치 기반의 가능도 기반 평가(KR-Test)를 도입한다.
Oracle 대 blind와 같은 검증 프레임워크를 제공하고, KR-Test를 사용하여 PEFT 다이내믹스를 분석한다.

제안 방법

KR-Test는 Training 코퍼스에서 의미 분할을 통해 질문을 도출하며, 이는 Teacher LLM에 의해 이루어진다.
각 구절에 대해 맥락, 사실상 올바른 연속, 그리고 그럴듯한 잘못된 연속으로 구성된 N개의 대조적 튜플을 생성한다.
설명된 대로 조건부 가능도(condition likelihood)로 올바른 연속이 선호되는지 판단하고, 지시 튜닝이나 디코딩 없이 평가한다.
Oracle 기반 검증은 WikiText2의 원문 단락을 사용하여 상한 성능을 평가한다.
KR-Test를 적용하여 LoRA PEFT 구성(Attention 계층 vs FFN 계층의 어댑터 배치)을 비교 연구한다.

Figure 1: KR-Test generation and validation pipeline. Questions are generated using segmented data and are used in validation to track the model’s learning progress.

실험 결과

연구 질문

RQ1SFT 중에 KR-Test가 사실 유지와 언어적 모방을 신뢰성 있게 구분할 수 있는가?
RQ2KR-Test로 측정된 사실 지식 유지에 대해 PEFT 구성(예: LoRA 배치)이 어떤 영향을 미치는가?
RQ3모델 용량/스케일이 초기 및 최종 KR-Test 점수에 어떤 영향을 미치는가?
RQ4KR-Test 결과와 전통적인 perplexity 기반 평가 간의 관계는 무엇인가?

주요 결과

KR-Test는 디코딩이나 지시 튜닝을 필요로하지 않는 사실 유지에 대한 구별력 있고 경량의 신호를 제공한다.
Oracle 기반 검증은 거의 이상적 상한 정확도(99.56%)를 보여주며, 질문이 원문 단락과 잘 일치하고 모델에게는 수월하지 않음을 시사한다.
동일 예산에서 FFN 계층의 LoRA 어댑터 배치가 Attention 계층 배치보다 더 높은 KR-Test 점수를 산출하여 지식 인코딩에 차이가 있음을 시사한다.
더 큰 기본 모델은 초기 및 최종 KR 점수가 더 높아지며, 최적화 역학을 넘어 모델 용량에 따른 지식 확장을 시사한다.
KR-Test는 perplexity로 포착되지 않는 언어적 수렴과 사실 유지 간의 이탈을 드러낸다.

Figure 2: Parameter efficiency of LoRA module placement according to KR-Test.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.