[論文レビュー] Say Anything but This: When Tokenizer Betrays Reasoning in LLMs
この論文は、トークン化の非一意性が phantom edits を引き起こす可能性を示す。LLMs がトークンIDを変更してもデコード済みテキストが同じままで、オープンソースモデル全体でトークナイザー誘発の推論の脆弱性が露呈する。
Large language models (LLMs) reason over discrete token ID sequences, yet modern subword tokenizers routinely produce non-unique encodings: multiple token ID sequences can detokenize to identical surface strings. This representational mismatch creates an unmeasured fragility wherein reasoning processes can fail. LLMs may treat two internal representations as distinct "words" even when they are semantically identical at the text level. In this work, we show that tokenization can betray LLM reasoning through one-to-many token ID mappings. We introduce a tokenization-consistency probe that requires models to replace designated target words in context while leaving all other content unchanged. The task is intentionally simple at the surface level, enabling us to attribute failures to tokenizer-detokenizer artifacts rather than to knowledge gaps or parameter limitations. Through analysis of over 11000 replacement trials across state-of-the-art open-source LLMs, we find a non-trivial rate of outputs exhibit phantom edits: cases where models operate under the illusion of correct reasoning, a phenomenon arising from tokenizer-induced representational defects. We further analyze these cases and provide a taxonomy of eight systematic tokenizer artifacts, including whitespace-boundary shifts and intra-word resegmentation. These findings indicate that part of apparent reasoning deficiency originates in the tokenizer layer, motivating tokenizer-level remedies before incurring the cost of training ever-larger models on ever-larger corpora.
研究の動機と目的
- サブワードトークン化アーティファクトがLLMの推論を損なうメカニズムを動機づけ診断する。
- トークナイザーの一貫性を評価するプローブを導入し、トークナイザー誘発の失敗と真の知識ギャップを分離する。
- 複数のオープンソースLLMにわたるトークナイザー誘発 phantom edits の有病率を定量化する。
- 非一意な表現を引き起こすトークナイザーアーティファクトの分類を提供し、緩和戦略を評価する。
提案手法
- ターゲット語を置換しつつ他の文を固定するトークン化一貫性タスクを定義する。
- XSUMニュース記事の非ストップワードの5%をサンプリングし、置換の対象として括弧で囲む。
- 10個のオープンソースLLMを複数のサイズ変種で評価し、表面的な変化なしで置換を実行できるかを評価する。
- 入力/出力トークンIDとデトークナイズ済みテキストに基づき「Unchanged(未変更)」「Replaced(置換)」「Different(異なる)」として結果を分類する。
- Differentクラスを分析し、8つのトークナイザーアーティファクトタイプを特定する。
- 問題のあるトークンIDをマスキングする介入を適用し、問題のあるトークン列を削除した場合の影響を評価する。
実験結果
リサーチクエスチョン
- RQ1LLMは同じ語にデトークン化される異なるトークンID列を実際の編集や意味的変化として扱うか。
- RQ2最先端のオープンソースLLMにおいてトークナイザー誘発アーティファクトは phantom edits を引き起こすか。
- RQ3トークナイザーを再訓練せずに、 offending token IDs をマスキングしてトークナイザー誘発の推論欠陥を緩和できるか。
- RQ4モデルサイズは真の置換とトークナイザー誘発の欠陥のバランスにどのように影響するか。
- RQ5推論タスクのためのトークナイザー認識の緩和策や修正の実用的な道は何か。
主な発見
- トークンIDが変わっても表面テキストが変更されない phantom edits の非自明な割合が、11k件の試行と10モデルにまたがって観測される。
- トークナイザーアーティファクトには、空白境界の移動、空白の切離/再結合、改行の置換、語内再セグメンテーション、固有名詞の分割、語形素の分割、頭字語、複数形/所有格の語尾トークンなどが含まれる。
- モデルサイズはトークナイザー誘発の欠陥を完全には解決せず、より大きなモデルでも Different カテゴリが現れる。
- 問題のある出力トークンIDをマスキングすると Different カテゴリを大幅に低減し、0-5%程度まで抑えられることがわかり、問題は主にトークナイザー主導であることを示唆する。
- 後付けの緩和策として、モデルにはトークナイザーアーティファクトによって覆われた下位の推論能力が存在することが示唆され、トークナイザーを意識した修正が必要であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。