[논문 리뷰] VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models
VEPO는 가변 엔트로피 RL 프레임워크를 도입하여 검증 가능한 보상을 통해 저자원 언어의 토큰화, 번역 품질 및 출력 신뢰성을 개선하면서 일반적 추론 능력을 보존한다.
Large language models frequently exhibit suboptimal performance on low resource languages, primarily due to inefficient subword segmentation and systemic training data imbalances. In this paper, we propose Variable Entropy Policy Optimization (VEPO), which leverages Reinforcement Learning with Verifiable Rewards to incorporate deterministic structural constraints into the policy alignment process. This framework ensures prescribed sequence length, robust format consistency, and rigorous linguistic well formedness, all enforced during training. Central to our approach is a variable entropy mechanism that enables the model to dynamically calibrate the equilibrium between literal fidelity and semantic naturalness by modulating the exploration exploitation manifold. By integrating entropy tempered advantage estimation with asymmetric clipping, VEPO sustains robust exploration while mitigating policy collapse. Empirical evaluations across 90 FLORES-200, COMET-22, chrF directions demonstrate that VEPO yields substantial improvements in both tokenization efficiency and translation quality, bridging the performance gap for underrepresented languages.
연구 동기 및 목표
- 저자원 언어의 토큰화 비효율성 및 데이터 불균형 해결.
- 부분어 효율성을 높이기 위한 토크나이저 강화 계속 사전학습 파이프라인 개발.
- 번역에서 문자 그대로의 충실도와 의미적 자연스러움을 균형 잡기 위한 가변 엔트로피 메커니즘 도입.
- 훈련 중 결정론적 구조 제약을 강화하기 위한 검증 가능 보상이 있는 강화학습(RLVR) 도입.
- FLORES-200 방향에서 최첨단 번역 성능 시연하면서 일반 추론 능력 유지.
제안 방법
- 언어별 토큰 확장을 통한 토크나이저 주도 지속적 사전학습(Qwen2.5-7B에서 Qwen2.5-7B-8Langs로).
- 망각 방지를 위한 1:1 영어 대 저자원 말뭉치의 균형 다국어 학습.
- 양방향/다국어 데이터에 대한 감독 미세조정을 통한 세 단계 커리큘럼으로 후정렬.
- 동적 엔트로피 정규화와 비대칭 클리핑이 있는 클립된 대리 손실을 이용한 Variable Entropy Policy Optimization (VEPO).
- 언어학적으로 병리적 샘플을 걸러내고 제약을 강제하기 위한 RLVR 기반 경로 필터링.
- 토큰 수준 기여 균형 및 통신 효율적 어드밴티지 정규화를 포함한 엔트로피 인식, 온도 일관된 정책 업데이트.
실험 결과
연구 질문
- RQ1토크나이저 확장을 통한 토큰화 개선이 저자원 문자에서 부분어 조각화를 줄이는가?
- RQ2VEPO의 가변 엔트로피 메커니즘이 다국어 번역에서 문자 그대로의 충실도와 의미적 자연스러움을 효과적으로 교환할 수 있는가?
- RQ3RLVR로 강제된 최적화가 학습을 안정시키고 일반 추론 능력을 손상시키지 않으면서 출력 결정성을 개선하는가?
- RQ4VEPO가 FLORES-200 방향에서 BLEU, COMET, chrF에서 어떻게 작동하며 번역 중심 기준선과 비교되는가?
- RQ5출력 길이 제어 및 과다 길이 편향 감소에 미치는 VEPO의 영향은 무엇인가?
주요 결과
- VEPO는 언어 일관성, 길이, 형식, 혼합성에 걸친 높은 제약 충족을 달성하여(표 1에서 전체 95.3%).
- VEPO (Full)는 FLORES-200 방향에서 오픈소스 7B 번역 성능의 최첨단을 확립(평균 BLEU 24.9, 평균 COMET 0.859, 평균 chrF 50.9).
- 토크나이즈 CPT plus VEPO는 CPT 비기반선 대비 번역 벤치마크에서 Delta 개선을 보여준다.
- VEPO는 일반 추론 벤치마크(BBH, CMMLU, HellaSwag, MMLU)를 SFT 기반선과 동등하거나 그 이상으로 유지하여 지시 이행 능력의 보존을 시사한다.
- 사람 평가에서도 VEPO 번역이 여러 언어 쌍에서 선호되며 의미적 정확성과 자연스러운 동의어적 충실성을 일치시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.