[論文レビュー] VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models
VEPO は検証可能な報酬を備えた変動エントロピー強化学習フレームワークを導入し、トークン化、翻訳品質、低リソース言語の出力信頼性を向上させつつ、一般的な推論能力を維持する。
Large language models frequently exhibit suboptimal performance on low resource languages, primarily due to inefficient subword segmentation and systemic training data imbalances. In this paper, we propose Variable Entropy Policy Optimization (VEPO), which leverages Reinforcement Learning with Verifiable Rewards to incorporate deterministic structural constraints into the policy alignment process. This framework ensures prescribed sequence length, robust format consistency, and rigorous linguistic well formedness, all enforced during training. Central to our approach is a variable entropy mechanism that enables the model to dynamically calibrate the equilibrium between literal fidelity and semantic naturalness by modulating the exploration exploitation manifold. By integrating entropy tempered advantage estimation with asymmetric clipping, VEPO sustains robust exploration while mitigating policy collapse. Empirical evaluations across 90 FLORES-200, COMET-22, chrF directions demonstrate that VEPO yields substantial improvements in both tokenization efficiency and translation quality, bridging the performance gap for underrepresented languages.
研究の動機と目的
- 低リソース言語におけるトークン化の非効率とデータの不均衡に対処する。
- 語彙を拡張するトークナイザ主導の継続的事前学習パイプラインを開発し、サブワード効率を改善する。
- 翻訳の文字通りの忠実性と意味的自然さのバランスを取る変動エントロピー機構を導入する。
- 訓練中の決定論的構造制約を課すために検証可能報酬付き強化学習(RLVR)を組み込む。
- FLORES-200 の各方向で最先端の翻訳性能を示しつつ、一般的な推論能力を維持する。
提案手法
- 言語固有のトークンを拡張したトークナイザ主導の継続事前学習(Qwen2.5-7B から Qwen2.5-7B-8Langs)に対応。
- 忘却を防ぐための英語対低リソース語コーパスを1:1でバランスさせた多言語訓練。
- 3 段階のカリキュラムを用いたバイリンガルおよび多言語データによる監視付き微調整で訓練後の整列を実行。
- 動的エントロピー正則化と非対称クリッピングを伴うクリップドサロゲート損失を用いた変動エントロピーポリシー最適化(VEPO)。
- ロールーチルトの RLVR ベースの軌跡フィルタリングにより言語的に病理的なサンプルを除外し制約を強制。
- トークンレベルの寄与の平衡と通信効率的なアドバンテージ正規化を伴うエントロピー認識・温度一貫性のある方策更新。
実験結果
リサーチクエスチョン
- RQ1トークン化の改善は低リソーススクリプトにおけるサブワード断片化を低減するか。
- RQ2VEPO の変動エントロピー機構は多言語翻訳において文字通りの忠実性と意味的自然さのトレードオフを効果的に行えるか。
- RQ3RLVR による最適化は訓練を安定化させ、一般的な推論能力を犠牲にせず出力の決定性を改善するか。
- RQ4VEPO は FLORES-200 の方向性において BLEU、COMET、chrF の性能をどう示し、翻訳に特化したベースラインと比較してどうか。
- RQ5VEPO は出力長の制御と冗長性バイアスの低減にどのような影響を与えるか。
主な発見
| モデル | X → E(BLEU/COMET/chrF) | E → X(BLEU/COMET/chrF) | X → X(BLEU/COMET/chrF) | Avg.(BLEU/COMET/chrF) |
|---|---|---|---|---|
| VEPO-7B (Full) | 36.1/.881/62.7 | 32.7/.882/56.2 | 23.1/.854/48.8 | 24.9/.859/50.9 |
| VEPO-7B w/o CPT | 33.3/.862/56.8 | 31.7/.863/51.8 | 21.4/.822/43.6 | 23.7/.837/46.9 |
| VEPO-7B-SFT | 35.4/.875/59.8 | 32.0/.875/52.9 | 22.7/.839/44.5 | 24.3/.849/48.3 |
- VEPO は言語的一貫性、長さ、形式、混在性の制約を高い満足度で達成(表1 全体で 95.3%)。
- VEPO(Full)は FLORES-200 の方向性で最先端のオープンソース7B翻訳性能を確立(平均 BLEU 24.9、平均 COMET 0.859、平均 chrF 50.9)。
- トークン化 CPT と VEPO の組み合わせは CPT 非搭載ベースラインより顕著な利得を得ており、翻訳ベンチマークで Delta の改善を示す。
- VEPO は BBH、CMMLU、HellaSwag、MMLU などの一般的推論ベンチマークを SFT ベースラインと同等かそれ以上に維持しており、指示遵守能力の保持を示唆。
- 人間の評価では VEPO の翻訳が複数の言語ペアで好まれ、意味的正確性と自然な paraphrastic 忠実性が一致している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。