QUICK REVIEW

[논문 리뷰] Language Model Tokenizers Introduce Unfairness Between Languages

Aleksandar Petrov, Emanuele La Malfa|arXiv (Cornell University)|2023. 05. 17.

Topic Modeling인용 수 29

한 줄 요약

본 논문은 토크나이즈가 언어 간에 큰 격차를 초래할 수 있어, 다국어 토크나이저일지라도 공정성 문제와 맥락 제약으로 이어진다는 점을 보여준다.

ABSTRACT

Recent language models have shown impressive multilingual performance, even when not explicitly trained for it. Despite this, there are concerns about the quality of their outputs across different languages. In this paper, we show how disparity in the treatment of different languages arises at the tokenization stage, well before a model is even invoked. The same text translated into different languages can have drastically different tokenization lengths, with differences up to 15 times in some cases. These disparities persist even for tokenizers that are intentionally trained for multilingual support. Character-level and byte-level models also exhibit over 4 times the difference in the encoding length for some language pairs. This induces unfair treatment for some language communities in regard to the cost of accessing commercial language services, the processing time and latency, as well as the amount of content that can be provided as context to the models. Therefore, we make the case that we should train future language models using multilingually fair subword tokenizers.

연구 동기 및 목표

모델 학습 및 데이터 너머의 다국어 NLP에서의 공정성 우려를 제기한다.
토크나이제이션 그 자체가 모델 실행 전에 이미 상당한 언어 간 격차를 만들어낸다는 것을 보여준다.
토크나이제이션 길이가 언어 간 비용, 지연 및 맥락 가용성에 어떤 영향을 미치는지 정량화한다.

제안 방법

다국어, 문자 기반, 바이트 기반 토크나이저를 포함한 다양한 토크나이저를 사용해 언어 간 토크나이제이션 동작을 분석한다.
다른 언어로 번역된 동일 콘텐츠에 대한 토크나이제이션 길이 차이를 측정하고, 극단적인 격차(최대 15x)를 보고한다.
문자 기반 및 바이트 기반 모델의 인코딩 길이를 비교하고, 일부 언어 쌍에서 4x 이상 차이를 관찰한다.
향후 언어 간 공정성을 갖춘 서브워드 토크나이저를 사용해 LM을 학습시킬 것을 주장한다.

실험 결과

연구 질문

RQ1다양한 토크나이저에 대해 언어 간 토크나이제이션 길이가 어떻게 달라지는가?
RQ2다국어, 문자 기반, 바이트 기반 토크나이저가 언어 간 불공정을 나타내는가?
RQ3언어 간 토크나이제이션 격차가 가져올 비용, 지연, 맥락 면에서의 시사점은 무엇인가?
RQ4LM 학습에서 공정한 서브워드 토크나이저를 사용하여 다국어 공정성을 달성할 수 있는가?

주요 결과

언어 간 토크나이제이션 길이 차이는 극심할 수 있으며, 같은 텍스트라도 서로 다른 언어에서 최대 15배 차이가 난다.
다국어 지원용으로 설계된 토크나이저조차도 토큰 길이에 있어 상당한 언어 간 차이를 보인다.
문자 기반 및 바이트 기반 모델은 일부 언어 쌍에서 인코딩 길이 차이가 4x 이상 나타난다.
이러한 토크나이제이션 격차는 서비스 접근성, 처리 시간과 지연, 모델 맥락으로 사용할 수 있는 콘텐츠 양에 대해 불공정한 비용을 부과한다.
저자들은 향후 다국어적으로 공정한 서브워드 토크나이저를 사용해 언어 모델을 학습시킬 것을 주장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.