Skip to main content
QUICK REVIEW

[论文解读] TREX: Tokenizer Regression for Optimal Data Mixture

Inho Won, Hangyeol Yoo|arXiv (Cornell University)|Jan 20, 2026
Natural Language Processing Techniques被引用 0
一句话总结

TREX 引入一个基于回归的框架,使用小型代理分词器预测用于分词器训练的最佳多语言数据混合,以实现可扩展搜索和在不进行大规模调优的情况下提高压缩效率。

ABSTRACT

Building effective tokenizers for multilingual Large Language Models (LLMs) requires careful control over language-specific data mixtures. While a tokenizer's compression performance critically affects the efficiency of LLM training and inference, existing approaches rely on heuristics or costly large-scale searches to determine optimal language ratios. We introduce Tokenizer Regression for Optimal Data MiXture (TREX), a regression-based framework that efficiently predicts the optimal data mixture for tokenizer training. TREX trains small-scale proxy tokenizers on random mixtures, gathers their compression statistics, and learns to predict compression performance from data mixtures. This learned model enables scalable mixture search before large-scale tokenizer training, mitigating the accuracy-cost trade-off in multilingual tokenizer design. Tokenizers trained with TReX's predicted mixtures outperform mixtures based on LLaMA3 and uniform distributions by up to 12% in both inand out-of-distribution compression efficiency, demonstrating strong scalability, robustness, and practical effectiveness.

研究动机与目标

  • 激励并说明数据混合如何影响多语言分词器的压缩和性能。
  • 提出一种基于回归的方法,在不进行大规模再训练的情况下预测最佳数据混合。
  • 证明小型代理分词器能够有效引导大规模分词器设计。
  • 展示 TREX 在多语言和领域特定设置中的鲁棒性与可扩展性。

提出的方法

  • 从混合空间 W 使用狄利克雷分布采样 N 个数据混合。
  • 在每个采样的混合上用小规模配置(S、V)训练代理分词器并测量压缩 C。
  • 拟合一个回归模型 f,将混合 w 映射到压缩 C,基于代理分词器的结果。
  • 利用已训练的模型对候选混合预测压缩并识别最优 w*。
  • 使用预测的最优混合 w* 训练大型分词器。

实验结果

研究问题

  • RQ1RQ1:TREX 能否有效近似用于分词器训练的最优多语言数据混合?
  • RQ2RQ2:数据混合与压缩之间的关系在不同数据和词汇尺度上是否一致?
  • RQ3RQ3:TREX 能否在多样语言和领域特定设置下保持鲁棒的压缩性能?

主要发现

  • 一个回归模型在 1GB/64K 规模下实现平均绝对百分比误差(MAPE)为 1.989,Spearman 等级相关系数 ρ > 0.97。
  • 用 TREX 预测混合训练的分词器在分布内和分布外数据的压缩效率上比基线高出最多 12%。
  • TREX 展示出跨尺度的等级不变性,不同配置之间的 Spearman 相关性很高(ρ ≥ 0.96),覆盖从 1GB/64K 到 30GB/200K。
  • TREX 预测的混合对分布外数据(FLORES)的鲁棒性最强,且非拉丁语言效率得到提升。
  • 在大规模训练(S=30GB,V=200K)中,TREX 的 wTREX 分词器在基线中获得最佳压缩和最短的估计训练时间。
  • TREX 表现出领域适应性,在医学领域文本中的预测可靠性仍然很高(Spearman ρ > 0.965,MAPE 约 0.921)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。