[论文解读] Language Model Tokenizers Introduce Unfairness Between Languages
本文表明分词可能在不同语言之间造成巨大的差异,导致不公平的成本和上下文限制,甚至对多语言分词器也是如此。
Recent language models have shown impressive multilingual performance, even when not explicitly trained for it. Despite this, there are concerns about the quality of their outputs across different languages. In this paper, we show how disparity in the treatment of different languages arises at the tokenization stage, well before a model is even invoked. The same text translated into different languages can have drastically different tokenization lengths, with differences up to 15 times in some cases. These disparities persist even for tokenizers that are intentionally trained for multilingual support. Character-level and byte-level models also exhibit over 4 times the difference in the encoding length for some language pairs. This induces unfair treatment for some language communities in regard to the cost of accessing commercial language services, the processing time and latency, as well as the amount of content that can be provided as context to the models. Therefore, we make the case that we should train future language models using multilingually fair subword tokenizers.
研究动机与目标
- 在多语言NLP中激发对公平性的关注,超越模型训练和数据。
- 证明分词本身在模型调用之前就会造成显著的跨语言差异。
- 量化分词长度差异如何影响成本、延迟和跨语言的上下文可用性。
提出的方法
- 使用各种分词器(包括多语言、字符级和字节级)分析不同语言的分词行为。
- 测量同一内容翻译成不同语言时的分词长度差异,报告极端差异(高达15倍)。
- 比较字符级和字节级模型的编码长度,注意某些语言对差异超过4倍。
- 主张在训练未来的语言模型时采用多语言公平的子词分词器。
实验结果
研究问题
- RQ1对于不同的分词器,分词长度在不同语言中的变化有多大?
- RQ2多语言、字符级和字节级分词器是否表现出跨语言的不公平?
- RQ3跨语言的分词差异对成本、延迟和上下文可用性有何潜在影响?
- RQ4是否可以通过在LM训练中使用公平的子词分词器来实现多语言公平?
主要发现
- 跨语言的分词长度差异可能非常大,同一文本在不同语言中的差异可达15倍。
- 即使是为多语言支持而设计的分词器,在分词长度上也存在相当大的跨语言差异。
- 在某些语言对中,字符级和字节级模型的编码长度差异超过4倍。
- 这种分词差异在获取服务、处理时间和延迟以及可用作模型上下文的内容量方面带来不公平的成本。
- 作者主张在未来的语言模型训练中使用多语言公平的子词分词器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。