[論文レビュー] TREX: Tokenizer Regression for Optimal Data Mixture
TREX は、小さな proxy トークナイザーを用いた回帰ベースのフレームワークで、トークナイザ訓練の最適な多言語データ混合を予測し、スケーラブルな探索と大規模調整なしで圧縮効率を改善します。
Building effective tokenizers for multilingual Large Language Models (LLMs) requires careful control over language-specific data mixtures. While a tokenizer's compression performance critically affects the efficiency of LLM training and inference, existing approaches rely on heuristics or costly large-scale searches to determine optimal language ratios. We introduce Tokenizer Regression for Optimal Data MiXture (TREX), a regression-based framework that efficiently predicts the optimal data mixture for tokenizer training. TREX trains small-scale proxy tokenizers on random mixtures, gathers their compression statistics, and learns to predict compression performance from data mixtures. This learned model enables scalable mixture search before large-scale tokenizer training, mitigating the accuracy-cost trade-off in multilingual tokenizer design. Tokenizers trained with TReX's predicted mixtures outperform mixtures based on LLaMA3 and uniform distributions by up to 12% in both inand out-of-distribution compression efficiency, demonstrating strong scalability, robustness, and practical effectiveness.
研究の動機と目的
- データ混合が多言語トークナイザの圧縮と性能に与える影響を動機づけ、対応する。
- 大規模再訓練なしで最適なデータ混合を予測する回帰ベースの方法を提案する。
- 小さな proxy トークナイザが大規模トークナイザ設計を効果的に導くことを示す。
- TREX の頑健性と多言語およびドメイン固有設定におけるスケーラビリティを示す。
提案手法
- Mixture 空間 W から Dirichlet 分布を用いて N 個のデータ混合をサンプルする。
- 各サンプル混合に対して小規模設定 (S, V) の proxy トークナイザを訓練し、圧縮 C を測定する。
- proxy トークナイザの結果を用いて混合 w を圧縮 C に写像する回帰モデル f を適合させる。
- 訓練済みモデルを用いて候補混合の圧縮を予測し、最適な w* を特定する。
- 予測された最適混合 w* を用いて大規模トークナイザを訓練する。
実験結果
リサーチクエスチョン
- RQ1RQ1: TREX はトークナイザ訓練の最適な多言語データ混合を効果的に近似できるか。
- RQ2RQ2: データ混合と圧縮の関係はデータ規模や語彙規模が異なる場合でも一貫しているか。
- RQ3RQ3: TREX は多様な言語的・ドメイン固有設定で頑健な圧縮性能を維持できるか。
主な発見
- 回帰モデルは 1.989 の平均絶対パーセンテージ誤差(MAPE)と ρ > 0.97 のスピアマン順位相関を 1GB/64K スケールで達成。
- TREX で予測された混合で訓練したトークナイザは、内分布データおよび外分布データの圧縮効率でベースラインを最大 12% 上回る。
- TREX はスケール間で順位不変性を示し、1GB/64K から 30GB/200K にわたる構成間で高いスピアマン相関(ρ ≥ 0.96)を示す。
- TREX 予測混合は外分布データ(FLORES)への頑健性が最も高く、非ラテン語言語の効率性が向上する。
- 大規模訓練(S=30GB, V=200K)では、TREX の wTREX トークナイザがベースラインの中で最良の圧縮と最短の推定訓練時間を達成。
- TREX はドメイン適応性を示し、医療ドメインのテキストでも高い予測信頼性を維持(Spearman ρ > 0.965、MAPE ≈ 0.921)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。