Skip to main content
QUICK REVIEW

[論文レビュー] xVal: A Continuous Numerical Tokenization for Scientific Language Models

Siavash Golkar, M. Pettee|arXiv (Cornell University)|Oct 4, 2023
Topic Modeling被引用数 7
ひとこと要約

xValは実数を1つのトークンとしてトークン化する連続的な数値エンコーディングで、科学データの数値推論をより滑らかにします。

ABSTRACT

Due in part to their discontinuous and discrete default encodings for numbers, Large Language Models (LLMs) have not yet been commonly used to process numerically-dense scientific datasets. Rendering datasets as text, however, could help aggregate diverse and multi-modal scientific data into a single training corpus, thereby potentially facilitating the development of foundation models for science. In this work, we introduce xVal, a strategy for continuously tokenizing numbers within language models that results in a more appropriate inductive bias for scientific applications. By training specially-modified language models from scratch on a variety of scientific datasets formatted as text, we find that xVal generally outperforms other common numerical tokenization strategies on metrics including out-of-distribution generalization and computational efficiency.

研究の動機と目的

  • LLMの科学データにおける数値のトークン化課題を動機づける。
  • 数値を単一トークンとしてエンコードし、値に応じて埋め込みをスケールする連続的な数値エンコーディング(xVal)を提案する。
  • 入力数値に対してモデルを連続に保つよう、別個の数値推論機構を導入する。
  • 合成データと実世界の科学データセットでxValを既存方式と比較評価し、トークン効率と一般化を評価する。

提案手法

  • 数値を単一の [NUM] トークンに置換し、[NUM] 埋め込みを実際の数値で乗算してエンコードする。
  • 最終的なトークン埋め込みを h_emb = h_num * h_text として計算し、標準的なトランスフォーマ処理を適用する。
  • 埋め込み空間内の数値的方向性を保つために、位置エンコーディングと層正規化を適用する。
  • 訓練時には、MLMとARの目的をサポートするために、テキスト成分と数値成分の両方をマスクすることを任意とする。
  • [NUM] トークンが生成された際に実際の数値を予測するため、別個の数値ヘッド(スカラー出力)をMSEで訓練する。
  • xValの動的レンジを限界化するため、入力数値を固定範囲に正規化する。

実験結果

リサーチクエスチョン

  • RQ1連続的で単一トークンの数値エンコーディングは、伝統的な数字ベースやプロトタイプベースのエンコーディングと比べてトークン効率を改善するか?
  • RQ2xValと専用の数値ヘッドで、入力-出力の数値マッピングのエンドツーエンドの連続性を達成できるか?
  • RQ3xValは合成データおよび実データの科学的データセットにおける補間と分布外タスクでどう機能するか?
  • RQ4科学分野のLLMにおける連続的数値エンコーディングのトレードオフと失敗モードは何か?

主な発見

  • xValは1数値につき1トークンという最小の語彙フットプリントで、トークン効率が高い。
  • 専用の数値ヘッドを用いることで、入力-出力の数値マッピングのエンドツーエンドの連続性を可能とし、補間性を向上させる。
  • xValは複数のデータセットで優れた補間性と分布外一般化を示し、代替方式より計算コストが低い場合が多い。
  • 温度予測タスクでは、xValが最良の予測性能とより高速な実行時間を実現した。
  • 惑星軌道予測では、すべてのエンコーディングを上回らなかった点があり、タスク依存のバイアスと制限を示す。
  • テキストベースのエンコーディングは偽相関や長いシーケンス長を生み、長距離・分布外の性能に影響を与える可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。