QUICK REVIEW

[論文レビュー] xVal: A Continuous Numerical Tokenization for Scientific Language Models

Siavash Golkar, M. Pettee|arXiv (Cornell University)|Oct 4, 2023

Topic Modeling被引用数 7

ひとこと要約

xValは実数を1つのトークンとしてトークン化する連続的な数値エンコーディングで、科学データの数値推論をより滑らかにします。

ABSTRACT

Due in part to their discontinuous and discrete default encodings for numbers, Large Language Models (LLMs) have not yet been commonly used to process numerically-dense scientific datasets. Rendering datasets as text, however, could help aggregate diverse and multi-modal scientific data into a single training corpus, thereby potentially facilitating the development of foundation models for science. In this work, we introduce xVal, a strategy for continuously tokenizing numbers within language models that results in a more appropriate inductive bias for scientific applications. By training specially-modified language models from scratch on a variety of scientific datasets formatted as text, we find that xVal generally outperforms other common numerical tokenization strategies on metrics including out-of-distribution generalization and computational efficiency.

研究の動機と目的

LLMの科学データにおける数値のトークン化課題を動機づける。
数値を単一トークンとしてエンコードし、値に応じて埋め込みをスケールする連続的な数値エンコーディング（xVal）を提案する。
入力数値に対してモデルを連続に保つよう、別個の数値推論機構を導入する。
合成データと実世界の科学データセットでxValを既存方式と比較評価し、トークン効率と一般化を評価する。

提案手法

数値を単一の [NUM] トークンに置換し、[NUM] 埋め込みを実際の数値で乗算してエンコードする。
最終的なトークン埋め込みを h_emb = h_num * h_text として計算し、標準的なトランスフォーマ処理を適用する。
埋め込み空間内の数値的方向性を保つために、位置エンコーディングと層正規化を適用する。
訓練時には、MLMとARの目的をサポートするために、テキスト成分と数値成分の両方をマスクすることを任意とする。
[NUM] トークンが生成された際に実際の数値を予測するため、別個の数値ヘッド（スカラー出力）をMSEで訓練する。
xValの動的レンジを限界化するため、入力数値を固定範囲に正規化する。

実験結果

リサーチクエスチョン

RQ1連続的で単一トークンの数値エンコーディングは、伝統的な数字ベースやプロトタイプベースのエンコーディングと比べてトークン効率を改善するか？
RQ2xValと専用の数値ヘッドで、入力-出力の数値マッピングのエンドツーエンドの連続性を達成できるか？
RQ3xValは合成データおよび実データの科学的データセットにおける補間と分布外タスクでどう機能するか？
RQ4科学分野のLLMにおける連続的数値エンコーディングのトレードオフと失敗モードは何か？

主な発見

xValは1数値につき1トークンという最小の語彙フットプリントで、トークン効率が高い。
専用の数値ヘッドを用いることで、入力-出力の数値マッピングのエンドツーエンドの連続性を可能とし、補間性を向上させる。
xValは複数のデータセットで優れた補間性と分布外一般化を示し、代替方式より計算コストが低い場合が多い。
温度予測タスクでは、xValが最良の予測性能とより高速な実行時間を実現した。
惑星軌道予測では、すべてのエンコーディングを上回らなかった点があり、タスク依存のバイアスと制限を示す。
テキストベースのエンコーディングは偽相関や長いシーケンス長を生み、長距離・分布外の性能に影響を与える可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。