[论文解读] xVal: A Continuous Numerical Tokenization for Scientific Language Models
xVal 引入了一种连续的、单令牌的实数编码,用于在 LLMs 中表示真实数字,提升令牌效率和插值能力,并为端到端的连续数值推理提供专用数字头。
Due in part to their discontinuous and discrete default encodings for numbers, Large Language Models (LLMs) have not yet been commonly used to process numerically-dense scientific datasets. Rendering datasets as text, however, could help aggregate diverse and multi-modal scientific data into a single training corpus, thereby potentially facilitating the development of foundation models for science. In this work, we introduce xVal, a strategy for continuously tokenizing numbers within language models that results in a more appropriate inductive bias for scientific applications. By training specially-modified language models from scratch on a variety of scientific datasets formatted as text, we find that xVal generally outperforms other common numerical tokenization strategies on metrics including out-of-distribution generalization and computational efficiency.
研究动机与目标
- 激励在科学数据中对数字进行令牌化的挑战,以用于 LLMs。
- 提出一种连续数值编码(xVal),将数字编码为单个令牌并按数值缩放嵌入。
- 引入改进的数字推理机制,使模型在输入数字上具有连续性。
- 在合成和真实科学数据集上将 xVal 与现有方案进行对比评估,以评估令牌效率和泛化能力。
提出的方法
- 通过将数字替换为单个 [NUM] 令牌并用实际数值缩放 [NUM] 嵌入来进行编码。
- 最终令牌嵌入表示为 h_emb = h_num * h_text,随后进行标准的 Transformer 处理。
- 应用位置编码和层归一化,以在嵌入空间中保留数值方向性。
- 在训练期间,可选地同时掩蔽文本和数值组件,以支持 MLM 和 AR 目标。
- 引入一个单独的数字头(标量输出),在生成 [NUM] 令牌时通过 MSE 训练来预测实际数值。
- 将输入数字归一化到固定区间,以维持 xVal 的有界动态范围。
实验结果
研究问题
- RQ1单一令牌的连续数值编码在令牌效率方面是否优于传统的基于数字位或基于原型的编码?
- RQ2是否可以通过 xVal 及专用数字头实现输入输出数值映射的端到端连续性?
- RQ3在合成和真实科学数据集的插值与分布外数值任务中,xVal 的表现如何?
- RQ4在科学领域中,连续数值编码在 LLMs 中的权衡与失效模式是什么?
主要发现
- xVal 在令牌效率方面更优,一次仅用一个令牌表示一个数字,且词汇表占用最小。
- 借助专用的数字头,xVal 实现了输入到输出数值映射的端到端连续性,从而提升插值能力。
- xVal 在若干数据集上展示了优越的插值和分布外泛化,同时通常具有比替代方案更低的计算量。
- 在气温预测任务中,xVal 取得了最佳预测性能并显示出更快的运行时间。
- 在行星轨道预测任务中,xVal 未超越所有编码方法,揭示了任务相关的偏差与局限性。
- 基于文本的编码可能存在虚假相关性和较长的序列长度,影响长期和分布外的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。