QUICK REVIEW

[論文レビュー] Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

Dixuan Wang, Yanda Li|arXiv (Cornell University)|May 27, 2024

Natural Language Processing Techniques被引用数 5

ひとこと要約

本論文は、LLMのトークン化を挑戦する Adversarial Dataset for Tokenizer (ADT) を提案し、トークン化エラーがオープンソースおよびクローズドソースのモデルを問わず誤った出力を生みうることを示し、中国語トークン化の課題に対する自動的な ADT-Auto フレームワークを提示する。

ABSTRACT

Large Language Models (LLMs) have shown remarkable capabilities in language understanding and generation. Nonetheless, it was also witnessed that LLMs tend to produce inaccurate responses to specific queries. This deficiency can be traced to the tokenization step LLMs must undergo, which is an inevitable limitation inherent to all LLMs. In fact, incorrect tokenization is the critical point that hinders LLMs in understanding the input precisely, thus leading to unsatisfactory output. This defect is more obvious in Chinese scenarios. To demonstrate this flaw of LLMs, we construct an adversarial dataset, named as $ extbf{ADT (Adversarial Dataset for Tokenizer)}$, which draws upon the vocabularies of various open-source LLMs to challenge LLMs' tokenization. ADT consists of two subsets: the manually constructed ADT-Human and the automatically generated ADT-Auto. Our empirical results reveal that our ADT is highly effective on challenging the tokenization of leading LLMs, including GPT-4o, Llama-3, Deepseek-R1 and so on, thus degrading these LLMs' capabilities. Moreover, our method of automatic data generation has been proven efficient and robust, which can be applied to any open-source LLMs. In this paper, we substantially investigate LLMs' vulnerability in terms of challenging their token segmentation, which will shed light on the subsequent research of improving LLMs' capabilities through optimizing their tokenization process and algorithms.

研究の動機と目的

特定の入力に対してトークン化の欠陥がLLMの出力を満足のいくものとしない原因になるかを調査する。
複数のLLMに対してトークン化処理を難しくするために、ADT（手動および自動）を構築する。
トークン化エラーとモデルの誤った応答との相関を評価する。
トークン化対立的サンプルのためのスケーラブルな自動データ生成フレームワークを実証する。
将来のLLMシステムにおけるトークン化の改善に向けた示唆を強調する。

提案手法

複数のLLM（中国語と英語）から語彙をエクスポートしてADT語彙を構築する。
選択されたトークンの周囲に挑戦的なスパンを挿入してトークン化ツールを惑わせることにより、ADT-Humanを手動で構築する。
自動的な語ペアマッチングによってTrap Wordsを生成し、挑戦的なインスタンスを作成するためにGPT-4を使用してADT-Autoを開発する。
フィルタリングを適用（トークン化リストにおける Trap Word の有無）と手動レビューでインスタンスを精錬する。
ローカルおよびAPI展開の両方で、オープンソースおよびクローズドソースのLLMに対してADTをテストする。

実験結果

リサーチクエスチョン

RQ1トークン化エラーは特定の入力で直接的に誤ったり意味不明な出力につながるか。
RQ2手動で構築された ADT-Human は、LLM全体でトークン化の脆弱性を明らかにするうえでどれほど有効か。
RQ3自動的に生成された ADT-Auto フレームワークは、言語を超えてトークン化の挑戦的なインスタンスを信頼性高く作成できるか。
RQ4異なるモデル間で、中国語と英語の入力におけるトークン化の課題の相対的な難易度はどのようか。
RQ5トークン化ベースの敵対的入力に対する頑健性の点で、より大型のモデルは小型のモデルとどう比較されるか。

主な発見

ADT-Human は、テストされたモデル全般で非常に高いエラー率を示し、強いトークン化の脆弱性を示唆する。
GPT-4o をはじめとする最先端モデルでも ADT-Human でなおに実用的でないエラー率を示し、規模にかかわらずトークン化の欠陥が残っている可能性を示唆する。
ADT-Auto は顕著な誤トークン化効果を伴う231件の中国語インスタンスを生成し、自動生成の有効性を確認している。
オープンソースのLLMは、ADT-Auto において一部のクローズドソースと比べてトークン化の弱点がより明確に表れており、モデル開発者がより良いトークン化器にアクセスできていることを示唆している。
大型モデルはトークン化の課題において小型のものより頑健である傾向があるが、エラーからは完全には逃れられない。
本研究はトークン化アルゴリズムと語彙設計の将来の改善を導く枠組みとデータセットを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。