[논문 리뷰] SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning
SED-SFT는 SFT 중 충분한 탐색 공간이 있는 토큰에서만 다양성을 촉진하도록 마스킹 메커니즘이 있는 선택적 엔트로피 정규화를 도입하여, 최소한의 오버헤드로 RL 결과를 개선합니다.
Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) has emerged as the standard post-training paradigm for large language models (LLMs). However, the conventional SFT process, driven by Cross-Entropy (CE) loss, often induces mode collapse, where models over-concentrate on specific response patterns. This lack of distributional diversity severely restricts the exploration efficiency required for subsequent RL. While recent studies have attempted to improve SFT by replacing the CE loss, aiming to preserve diversity or refine the update policy, they fail to adequately balance diversity and accuracy, thereby yielding suboptimal performance after RL. To address the mode collapse problem, we propose SED-SFT, which adaptively encourages diversity based on the token exploration space. This framework introduces a selective entropy regularization term with a selective masking mechanism into the optimization objective. Extensive experiments across eight mathematical benchmarks demonstrate that SED-SFT significantly enhances generation diversity with a negligible computational overhead increase compared with CE loss, yielding average improvements of 2.06 and 1.20 points in subsequent RL performance over standard CE-based baselines on Llama-3.2-3B-Instruct and Qwen2.5-Math-7B-Instruct, respectively. The code is publicly available at https://github.com/pppa2019/SED-SFT
연구 동기 및 목표
- 교차 엔트로피 손실로 구동되는 표준 SFT에서 모드 붕괴를 완화해야 할 필요성을 제시한다.
- 토큰 수준의 탐색 공간을 다양성과 다운스트림 RL 이익을 제한하는 핵심 요인으로 식별한다.
- 토큰 탐색 공간에 따라 예측 확률을 선택적으로 정규화하는 SED-SFT를 제안한다.
- 두 가지 백본에서 수학 벤치마크에 대해 다양성 이득과 더 나은 RL 성능을 SED-SFT가 보여준다.
제안 방법
- 다양성 촉진을 적용할 지점을 결정하기 위한 선택적 마스킹 메커니즘 M_t를 도입한다.
- 위치 t에서 상위 k 토큰의 누적 확률을 P_Top-k(t)로 정의하고 P_Top-k(t) < tau 이면 M_t = 1로 설정한다.
- 마스킹되었을 때 Ground-truth 토큰 확률 p에 대해 이차 다변성 촉진 패널티 L_DE(p) = (p - 0.5)^2를 사용한다.
- CE 손실과 마스킹된 다양성 페널티를 결합한다: L_SED-SFT = sum_t [-log pi_theta(y_t^* | x, y_<t) + lambda * M_t * L_DE(pi_theta(y_t^* | x, y_<t))].
- 관찰된 P_Top-k의 (1-r) 분위수로 tau를 조정하며, 여기서 r은 마스킹 비율이다.
- 모든 실험에서 다양성과 정확도의 균형을 맞추기 위해 lambda = 1로 설정한다.
실험 결과
연구 질문
- RQ1토큰 수준의 탐색 공간이 SFT 중 다양성에 어떤 영향을 미치는가?
- RQ2SFT-then-RL 파이프라인 이후 다운스트림 RL 성능을 선택적 엔트로 정규화로 개선할 수 있는가?
- RQ3저 탐색 공간을 가진 토큰을 마스킹하는 것이 수학적 추론 작업에서 정확도와 다양성에 어떤 영향을 미치는가?
- RQ4SED-SFT 이득이 서로 다른 백본과 여덟 개의 수학 벤치마크에서 일반화되는가?
주요 결과
- SED-SFT는 두 가지 백본에서 CE 기반 베이스라인보다 지속적으로 다운스트림 RL 성능을 향상시키며, 평균 향상도는 2.06 포인트(Llama-3.2-3B-Instruct)와 1.20 포인트(Qwen2.5-Math-7B-Instruct)이다.
- SED-SFT는 CE 및 DFT 베이스라인에 비해 Self-BLEU 점수가 더 낮아 더 높은 생성 다양성을 달성한다.
- 저 탐색 공간을 가진 토큰에 대한 다양성 촉진을 억제하는 마스킹 전략은 정확도를 유지하면서 다양성을 높이는 데 중요하다.
- DFT는 SFT 성능을 높일 수 있지만 탐색 공간을 심하게 제한하여 RL 이익을 제한한다; GEM은 다양성을 증가시키지만 토큰별 탐색 공간을 무시한다.
- 하이퍼파라미터 민감도는 강건함을 시사한다: 마스킹 비율 r > 0.5 및 top-k 탐색에서 k > 1일 때 SED-SFT가 CE보다 우수하다.
- 문장 수준 다양성(Self-BLEU)은 CE 및 DFT에 비해 SED-SFT 및 GEM 하에서 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.