Skip to main content
QUICK REVIEW

[论文解读] ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

Douglass Wang|arXiv (Cornell University)|Mar 3, 2026
Handwritten Text Recognition Techniques被引用 0
一句话总结

ScribeTokens 引入固定的 10 令牌基础词汇,通过 Bresenham 基单元步将数字墨迹进行编码,实现无 OOV 的压缩与鲁棒的识别/生成,并且自监督的下一个墨迹令牌预训练能提升收敛和性能。

ABSTRACT

Digital ink -- the coordinate stream captured from stylus or touch input -- lacks a unified representation. Continuous vector representations produce long sequences and suffer from training instability, while existing token representations require large vocabularies, face out-of-vocabulary issues, and underperform vectors on recognition. We propose ScribeTokens, a tokenization that decomposes pen movement into unit pixel steps. Together with two pen-state tokens, this fixed 10-token base vocabulary suffices to represent any digital ink and enables aggressive BPE compression. On handwritten text generation, ScribeTokens dramatically outperforms vectors (17.33% vs. 70.29% CER), showing tokens are far more effective for generation. On recognition, ScribeTokens is the only token representation to outperform vectors without pretraining. We further introduce next-ink-token prediction as a self-supervised pretraining strategy, which consistently improves recognition across all token-based models and accelerates convergence by up to 83x. With pretraining, ScribeTokens achieves the best recognition results across all representations on both datasets (8.27% CER on IAM, 9.83% on DeepWriting).

研究动机与目标

  • 为在线书写/数字墨迹建立一个 canonical、鲁棒的表示,以提升建模效率与性能。
  • 在现有墨迹令牌化中解决 OOV 和词汇量问题,同时确保墨迹序列的有效解码。
  • 通过 BPE 在不牺牲可微性或重建保真度的前提下实现有效压缩。
  • 在基于令牌的墨迹表示上展示自监督预训练对识别和生成任务的收益。

提出的方法

  • 使用 Bresenham 的直线算法结合 Freeman 链码将笔画分解为单位方向步,以生成令牌序列。
  • 定义固定的 10 个令牌基础词汇(八个方向加上笔尖落笔/抬笔),并通过 DOWN/UP 令牌强制笔画边界。
  • 对基础令牌应用字节对编码(BPE),在保持无 OOV 的前提下实现强压缩。
  • 通过从方向步重建坐标进行去标记解码,按网格增量缩放,并应用 Savitzky–Golay 平滑以减少阶梯状伪影。
  • 在有监督微调识别或生成之前,先通过下一个墨迹令牌预测(NTP)进行自监督目标预训练。

实验结果

研究问题

  • RQ1固定、无 OOV 的数字墨迹令牌化能否在书写识别与生成上超越现有的向量与令牌表示?
  • RQ2下一个墨迹令牌预训练是否在各种墨迹表示上普遍提升识别和生成,并且对收敛速度有何影响?
  • RQ3在实际量化设置下,ScribeTokens 相较于其他令牌化在压缩、OOV 率和重建保真度方面的表现如何?
  • RQ4在采样率和密度变化下,所提出的令牌化是否具有鲁棒性,同时能否通过标准 Transformer 模型实现有效下游学习?

主要发现

  • ScribeTokens 在识别和生成方面均显示出强劲表现,在生成方面优于向量表示(CER 更低),并且在某些设置中超过未进行预训练的令牌表示的识别表现。
  • 下一个墨迹令牌预训练在识别上有提升,并使生成的收敛速度提升最多 83 倍,在数据稀缺情形下尤为显著。
  • 在有预训练的情况下,ScribeTokens 在 IAM(CER 8.27%)和 DeepWriting(CER 9.83%)等数据集上取得最佳识别结果,并在数据受限时获得 IAM 的最佳生成结果。
  • 相较于向量表示,令牌表示通常在生成方面表现更优,结合预训练时 ScribeTokens 能取得显著提升;在某些数据集若无预训练,TextTokens 可能会出现明显失败。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。