Skip to main content
QUICK REVIEW

[논문 리뷰] TREX: Tokenizer Regression for Optimal Data Mixture

Inho Won, Hangyeol Yoo|arXiv (Cornell University)|2026. 01. 20.
Natural Language Processing Techniques인용 수 0
한 줄 요약

TREX는 소형 프록시 토크나이저를 사용하여 토크나이저 학습을 위한 최적의 다국어 데이터 혼합을 예측하는 회귀 기반 프레임워크를 도입합니다. 이를 통해 대규모 튜닝 없이도 확장 가능한 탐색과 향상된 압축 효율성을 가능하게 합니다.

ABSTRACT

Building effective tokenizers for multilingual Large Language Models (LLMs) requires careful control over language-specific data mixtures. While a tokenizer's compression performance critically affects the efficiency of LLM training and inference, existing approaches rely on heuristics or costly large-scale searches to determine optimal language ratios. We introduce Tokenizer Regression for Optimal Data MiXture (TREX), a regression-based framework that efficiently predicts the optimal data mixture for tokenizer training. TREX trains small-scale proxy tokenizers on random mixtures, gathers their compression statistics, and learns to predict compression performance from data mixtures. This learned model enables scalable mixture search before large-scale tokenizer training, mitigating the accuracy-cost trade-off in multilingual tokenizer design. Tokenizers trained with TReX's predicted mixtures outperform mixtures based on LLaMA3 and uniform distributions by up to 12% in both inand out-of-distribution compression efficiency, demonstrating strong scalability, robustness, and practical effectiveness.

연구 동기 및 목표

  • 데이터 혼합이 다국어 토크나이저의 압축 및 성능에 미치는 영향을 동기 부여하고 다룬다.
  • 대규모 재훈련 없이 최적의 데이터 혼합을 예측하기 위한 회귀 기반 방법을 제안한다.
  • 작은 프록시 토크나이저가 대규모 토크나이저 설계에 효과적으로 가이드를 제공할 수 있음을 보여준다.
  • 다국어 및 도메인 특화 설정에서 TREX의 견고성과 확장성을 보여준다.

제안 방법

  • 디리클레 분포를 사용하여 혼합 공간 W에서 N개의 데이터 혼합을 샘플링한다.
  • 각 샘플링된 혼합에 대해 소 규모 구성(S, V)으로 프록시 토크나이저를 학습하고 압축 C를 측정한다.
  • 프록시 토크나이저 결과를 사용하여 혼합 w를 압축 C로 매핑하는 회귀 모델 f를 적합시킨다.
  • 학습된 모델을 사용해 후보 혼합에 대한 압축을 예측하고 최적의 w*를 식별한다.
  • 예측된 최적 혼합 w*를 사용하여 대규모 토크나이저를 학습한다.

실험 결과

연구 질문

  • RQ1RQ1: TREX가 토크나이저 학습을 위한 최적의 다국어 데이터 혼합을 효과적으로 근사할 수 있는가?
  • RQ2RQ2: 데이터 혼합과 압축 간의 관계가 서로 다른 데이터 및 어휘 규모에서도 일관된가?
  • RQ3RQ3: TREX가 다양한 언어 및 도메인 특성 하에서 견고한 압축 성능을 유지할 수 있는가?

주요 결과

  • 회귀 모델이 1GB/64K 스케일에서 평균 절대 백분율 오차(MAPE) 1.989 및 스피어먼 순위 상관계수 ρ > 0.97를 달성한다.
  • TREX-예측 혼합으로 학습된 토크나이저는 분포 내/분포 외 데이터에서 압축 효율성 측면에서 기준선보다 최대 12% 더 우수하다.
  • TREX는 규모 간 순위 불변성을 보여주며, 1GB/64K에서 30GB/200K에 이르는 설정 간 높은 스피어먼 상관계수(ρ ≥ 0.96)를 보인다.
  • TREX-예측 혼합은 분포 외 데이터(FLORES)에 대한 가장 강한 견고성과 비라틴어 언어 효율성 개선을 제공한다.
  • 대규모 학습(S=30GB, V=200K)에서 TREX의 wTREX 토크나이저가 다른 기준선들 중 가장 좋은 압축과 가장 짧은 추정 학습 시간을 달성한다.
  • TREX는 도메인 적응성을 보이며 의학 도메인 텍스트에서도 높은 예측 신뢰도(Spearman ρ > 0.965, MAPE ≈ 0.921)를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.