Skip to main content
QUICK REVIEW

[論文レビュー] ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

Douglass Wang|arXiv (Cornell University)|Mar 3, 2026
Handwritten Text Recognition Techniques被引用数 0
ひとこと要約

ScribeTokens は Bresenham ベースの単位ステップを用いて定固定長の10トークン基底語彙を導入し、デジタルインクをトークン化することで OOVフリーの圧縮と堅牢な認識/生成を実現。自己教師付きの次のインク・トークン事前学習が収束と性能を向上させる。

ABSTRACT

Digital ink -- the coordinate stream captured from stylus or touch input -- lacks a unified representation. Continuous vector representations produce long sequences and suffer from training instability, while existing token representations require large vocabularies, face out-of-vocabulary issues, and underperform vectors on recognition. We propose ScribeTokens, a tokenization that decomposes pen movement into unit pixel steps. Together with two pen-state tokens, this fixed 10-token base vocabulary suffices to represent any digital ink and enables aggressive BPE compression. On handwritten text generation, ScribeTokens dramatically outperforms vectors (17.33% vs. 70.29% CER), showing tokens are far more effective for generation. On recognition, ScribeTokens is the only token representation to outperform vectors without pretraining. We further introduce next-ink-token prediction as a self-supervised pretraining strategy, which consistently improves recognition across all token-based models and accelerates convergence by up to 83x. With pretraining, ScribeTokens achieves the best recognition results across all representations on both datasets (8.27% CER on IAM, 9.83% on DeepWriting).

研究の動機と目的

  • オンライン手書き/デジタルインクのモデリング効率と性能を向上させる、標準化され堅牢な表現を Motivate する。
  • 既存のインクトークン化における OOV および語彙サイズの問題に対処しつつ、インク列の妥当なデコードを保証する。
  • BPE による効果的な圧縮を、微分可能性や再構成忠実度を損なうことなく実現する。
  • トークンベースのインク表現に対する自己教師付き事前学習が認識と生成タスクの両方での利点を示す。

提案手法

  • Bresenham の直線アルゴリズムと Freeman チェーンコードを組み合わせてペンのストロークを単位方向ステップに分解し、トークン列を生成する。
  • ストローク境界を DOWN/UP トークンで強制する、8方向+ペンダウン・ペンアップの固定基底語彙を定義する。
  • ベーストークンに対して Byte-Pair Encoding (BPE) を適用し、OOVフリーを保ちながら積極的な圧縮を実現する。
  • 方向ステップから座標を再構築してデトークン化し、グリッドのデルタでスケールし、階段状アーティファクトを抑える Savitzky–Golay 平滑化を適用する。
  • 認識または生成の監督付き微調整の前に、自己教師付き目的として next-ink-token prediction (NTP) でトークン表現を事前学習する。

実験結果

リサーチクエスチョン

  • RQ1固定された OOV フリーのデジタルインクトークン化は、手書き認識と生成において既存のベクトルおよびトークン表現を上回るか。
  • RQ2次のインク・トークンの事前学習は、インク表現全般で認識と生成を一貫して改善し、収束速度にはどのような影響を与えるか。
  • RQ3実用的な量子化設定の下で、圧縮性、OOV レート、再構成忠実度の点で、ScribeTokens は他のトークン化とどのように比較されるか。
  • RQ4提案されたトークン化は、サンプリングレートや密度の変動に対して頑健かつ、標準的な Transformer ベースモデルによる下流学習を効果的に可能にするか。

主な発見

  • ScribeTokens は認識と生成の両方で強力な性能を示し、生成ではベクトルを上回り(CER が低い)、事前学習なしの認識ではトークン表現を上回る場合がある。
  • 次のインク・トークン事前学習は認識と収束の加速をもたらし、生成で最大 83 倍の ускор化を提供し、データが限られた設定で特に一貫した利益を生む。
  • 事前学習を用いると、ScribeTokens は IAM(CER 8.27%)と DeepWriting(CER 9.83%)で最良の認識結果を得、データ不足の設定で IAM の生成結果も最良となる。
  • トークン表現は一般に生成でベクトルを上回り、事前学習と組み合わせると顕著な利得を得る。一部データセットでは TextTokens が事前学習なしでは劇的に失敗することもある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。