QUICK REVIEW

[論文レビュー] SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning

Yijie Chen, Yijin Liu|arXiv (Cornell University)|Feb 7, 2026

Topic Modeling被引用数 0

ひとこと要約

SED-SFT はマスキング機構を用いた選択的エントロピー正則化を導入し、探索空間が十分なトークンに対してだけ多様性を促進することで、RL の成果を最小限のオーバーヘッドで改善します。

ABSTRACT

Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) has emerged as the standard post-training paradigm for large language models (LLMs). However, the conventional SFT process, driven by Cross-Entropy (CE) loss, often induces mode collapse, where models over-concentrate on specific response patterns. This lack of distributional diversity severely restricts the exploration efficiency required for subsequent RL. While recent studies have attempted to improve SFT by replacing the CE loss, aiming to preserve diversity or refine the update policy, they fail to adequately balance diversity and accuracy, thereby yielding suboptimal performance after RL. To address the mode collapse problem, we propose SED-SFT, which adaptively encourages diversity based on the token exploration space. This framework introduces a selective entropy regularization term with a selective masking mechanism into the optimization objective. Extensive experiments across eight mathematical benchmarks demonstrate that SED-SFT significantly enhances generation diversity with a negligible computational overhead increase compared with CE loss, yielding average improvements of 2.06 and 1.20 points in subsequent RL performance over standard CE-based baselines on Llama-3.2-3B-Instruct and Qwen2.5-Math-7B-Instruct, respectively. The code is publicly available at https://github.com/pppa2019/SED-SFT

研究の動機と目的

Cross-Entropy 損失に基づく標準的な SFT でのモード崩壊の緩和の必要性を動機づける。
多様性を制限する要因としてのトークンレベル探索空間を特定する。
トークン探索空間に基づいて予測確率を選択的に正則化する SED-SFT を提案する。
SED-SFT が二つのバックボーンで数学ベンチマークにおいて多様性の向上とより良い RL 性能を実証する。

提案手法

多様性促進を適用する場所を決定する選択的マスキング機構 M_t を導入する。
位置 t における上位 k トークンの累積確率を P_Top-k(t) と定義し、P_Top-k(t) < tau のとき M_t = 1 とする。
マスクされたときには地上真値トークン確率 p に対して二次的な多様性促進ペナルティ L_DE(p) = (p - 0.5)^2 を使用する。
CE 損失とマスクされた多様性ペナルティを組み合わせて: L_SED-SFT = sum_t [-log pi_theta(y_t^* | x, y_<t) + lambda * M_t * L_DE(pi_theta(y_t^* | x, y_<t))].
tau はサンプル全体の観測された P_Top-k の (1-r) 分位数から調整し、r はマスキング比。
λ = 1 を全ての実験で設定し、多様性と精度のバランスを取る。

実験結果

リサーチクエスチョン

RQ1トークンレベルの探索空間は SFT 中の多様性にどのように影響するか。
RQ2SED-SFT により SFT-then-RL のパイプライン後の下流の RL 性能は改善されるか。
RQ3低探索空間を持つトークンをマスクすることは、数理推論タスクにおける精度と多様性にどのような影響を与えるか。
RQ4SED-SFT の利得は異なるバックボーンおよび八つの数学ベンチマークにまたがって一般化するか。

主な発見

SED-SFT は二つのバックボーンで CE ベースのベースラインより下流の RL 性能を一貫して改善する：平均利益は Llama-3.2-3B-Instruct で 2.06 ポイント、Qwen2.5-Math-7B-Instruct で 1.20 ポイント。
SED-SFT は CE および DFT ベースラインと比較して自己 BLEU が低く、生成の多様性が高いことを示す。
探索空間が低いトークンで多様性促進を抑制するマスキング戦略は、精度を維持しつつ多様性を高める上で重要。
DFT は SFT の性能を向上させるが探索空間を著しく制限し RL の利得を制限する；GEM は多様性を増すがトークン特異的探索空間を無視する。
ハイパーパラメータの感度は頑健性を示す：r > 0.5 かつ top-k の k > 1 の場合に SED-SFT が CE を上回る。
文レベルの多様性（Self-BLEU）は CE および DFT と比較して SED-SFT と GEM で改善される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。