QUICK REVIEW

[論文レビュー] TREX: Tokenizer Regression for Optimal Data Mixture

Inho Won, Hangyeol Yoo|arXiv (Cornell University)|Jan 20, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

TREX は、小さな proxy トークナイザーを用いた回帰ベースのフレームワークで、トークナイザ訓練の最適な多言語データ混合を予測し、スケーラブルな探索と大規模調整なしで圧縮効率を改善します。

ABSTRACT

Building effective tokenizers for multilingual Large Language Models (LLMs) requires careful control over language-specific data mixtures. While a tokenizer's compression performance critically affects the efficiency of LLM training and inference, existing approaches rely on heuristics or costly large-scale searches to determine optimal language ratios. We introduce Tokenizer Regression for Optimal Data MiXture (TREX), a regression-based framework that efficiently predicts the optimal data mixture for tokenizer training. TREX trains small-scale proxy tokenizers on random mixtures, gathers their compression statistics, and learns to predict compression performance from data mixtures. This learned model enables scalable mixture search before large-scale tokenizer training, mitigating the accuracy-cost trade-off in multilingual tokenizer design. Tokenizers trained with TReX's predicted mixtures outperform mixtures based on LLaMA3 and uniform distributions by up to 12% in both inand out-of-distribution compression efficiency, demonstrating strong scalability, robustness, and practical effectiveness.

研究の動機と目的

データ混合が多言語トークナイザの圧縮と性能に与える影響を動機づけ、対応する。
大規模再訓練なしで最適なデータ混合を予測する回帰ベースの方法を提案する。
小さな proxy トークナイザが大規模トークナイザ設計を効果的に導くことを示す。
TREX の頑健性と多言語およびドメイン固有設定におけるスケーラビリティを示す。

提案手法

Mixture 空間 W から Dirichlet 分布を用いて N 個のデータ混合をサンプルする。
各サンプル混合に対して小規模設定 (S, V) の proxy トークナイザを訓練し、圧縮 C を測定する。
proxy トークナイザの結果を用いて混合 w を圧縮 C に写像する回帰モデル f を適合させる。
訓練済みモデルを用いて候補混合の圧縮を予測し、最適な w* を特定する。
予測された最適混合 w* を用いて大規模トークナイザを訓練する。

実験結果

リサーチクエスチョン

RQ1RQ1: TREX はトークナイザ訓練の最適な多言語データ混合を効果的に近似できるか。
RQ2RQ2: データ混合と圧縮の関係はデータ規模や語彙規模が異なる場合でも一貫しているか。
RQ3RQ3: TREX は多様な言語的・ドメイン固有設定で頑健な圧縮性能を維持できるか。

主な発見

回帰モデルは 1.989 の平均絶対パーセンテージ誤差（MAPE）と ρ > 0.97 のスピアマン順位相関を 1GB/64K スケールで達成。
TREX で予測された混合で訓練したトークナイザは、内分布データおよび外分布データの圧縮効率でベースラインを最大 12% 上回る。
TREX はスケール間で順位不変性を示し、1GB/64K から 30GB/200K にわたる構成間で高いスピアマン相関（ρ ≥ 0.96）を示す。
TREX 予測混合は外分布データ（FLORES）への頑健性が最も高く、非ラテン語言語の効率性が向上する。
大規模訓練（S=30GB, V=200K）では、TREX の wTREX トークナイザがベースラインの中で最良の圧縮と最短の推定訓練時間を達成。
TREX はドメイン適応性を示し、医療ドメインのテキストでも高い予測信頼性を維持（Spearman ρ > 0.965、MAPE ≈ 0.921）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。