QUICK REVIEW

[論文レビュー] Language Model Tokenizers Introduce Unfairness Between Languages

Aleksandar Petrov, Emanuele La Malfa|arXiv (Cornell University)|May 17, 2023

Topic Modeling被引用数 29

ひとこと要約

本論文は、トークン化が言語間で大きな差異を生み出す可能性があることを示し、多言語トークナイザーであっても不公平なコストや文脈制限を招く，という点を明らかにする。

ABSTRACT

Recent language models have shown impressive multilingual performance, even when not explicitly trained for it. Despite this, there are concerns about the quality of their outputs across different languages. In this paper, we show how disparity in the treatment of different languages arises at the tokenization stage, well before a model is even invoked. The same text translated into different languages can have drastically different tokenization lengths, with differences up to 15 times in some cases. These disparities persist even for tokenizers that are intentionally trained for multilingual support. Character-level and byte-level models also exhibit over 4 times the difference in the encoding length for some language pairs. This induces unfair treatment for some language communities in regard to the cost of accessing commercial language services, the processing time and latency, as well as the amount of content that can be provided as context to the models. Therefore, we make the case that we should train future language models using multilingually fair subword tokenizers.

研究の動機と目的

モデルの訓練とデータを超えた多言語NLPにおける公平性の懸念を喚起する。
トークン化そのものが、モデル呼び出し前に言語間の実質的な差を生み出すことを示す。
トークン化長の差が言語間のコスト、待機時間、文脈利用可能性に与える影響を定量化する。

提案手法

多言語、文字レベル、バイトレベルを含むさまざまなトークナイザーを用いて、言語間でのトークン化挙動を分析する。
同一コンテンツを異なる言語に翻訳した場合のトークン化長の差を測定し、極端な差異（最大で15倍）を報告する。
文字レベルおよびバイトレベルモデルのエンコーディング長を比較し、言語ペアによっては4倍超の差を指摘する。
将来のLMを、多言語的に公正なサブワードトークナイザーで訓練することを主張する。

実験結果

リサーチクエスチョン

RQ1異なるトークナイザーの場合、言語間でトークン化長はどのように変動するか？
RQ2多言語対応、文字レベル、およびバイトレベルのトークナイザーは、言語間の不公平さを示すか？
RQ3言語間のトークン化差異がもたらすコスト、待機時間、文脈利用可能性への影響は何か？
RQ4LM訓練において、公正なサブワードトークナイザーを使用して、多言語的な公平性を達成できるか？

主な発見

言語間のトークン化長の差は甚だしく、同じテキストでも言語によって最大15倍の差が生じる。
多言語対応を想定したトークナイザーですら、トークナイズ後の長さにおいて言語間で大きな差が見られる。
文字レベルおよびバイトレベルのモデルでは、特定の言語ペアでエンコーディング長に4倍超の差が見られる。
このようなトークン化差は、サービス利用の可用性、処理時間と待機時間、モデルコンテキストとして利用可能なコンテンツ量に関して、公平でないコストを課す。
著者らは、多言語的に公正なサブワードトークナイザーを用いて将来の言語モデルを訓練することを提唱している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。