Skip to main content
QUICK REVIEW

[논문 리뷰] Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

Dixuan Wang, Yanda Li|arXiv (Cornell University)|2024. 05. 27.
Natural Language Processing Techniques인용 수 5
한 줄 요약

본 논문은 LLM의 토크나이제이션에 도전하기 위한 Adversarial Dataset for Tokenizer (ADT)를 소개하고, 토크나이제이션 오류가 오픈 소스 및 폐쇄 소스 모델 전반에서 잘못된 출력으로 이어질 수 있음을 보여주며, 중국어 토크나이제이션 과제를 위한 자동 ADT-Auto 프레임워크를 제시합니다.

ABSTRACT

Large Language Models (LLMs) have shown remarkable capabilities in language understanding and generation. Nonetheless, it was also witnessed that LLMs tend to produce inaccurate responses to specific queries. This deficiency can be traced to the tokenization step LLMs must undergo, which is an inevitable limitation inherent to all LLMs. In fact, incorrect tokenization is the critical point that hinders LLMs in understanding the input precisely, thus leading to unsatisfactory output. This defect is more obvious in Chinese scenarios. To demonstrate this flaw of LLMs, we construct an adversarial dataset, named as $ extbf{ADT (Adversarial Dataset for Tokenizer)}$, which draws upon the vocabularies of various open-source LLMs to challenge LLMs' tokenization. ADT consists of two subsets: the manually constructed ADT-Human and the automatically generated ADT-Auto. Our empirical results reveal that our ADT is highly effective on challenging the tokenization of leading LLMs, including GPT-4o, Llama-3, Deepseek-R1 and so on, thus degrading these LLMs' capabilities. Moreover, our method of automatic data generation has been proven efficient and robust, which can be applied to any open-source LLMs. In this paper, we substantially investigate LLMs' vulnerability in terms of challenging their token segmentation, which will shed light on the subsequent research of improving LLMs' capabilities through optimizing their tokenization process and algorithms.

연구 동기 및 목표

  • 토큰화 결함이 특정 입력에 대해 불만족스러운 LLM 출력으로 직접 이어지는지 여부를 조사한다.
  • 여러 LLM에 걸쳐 토크나이저를 도전시키기 위해 ADT(수동 및 자동)를 구성한다.
  • 토크나이제이션 오류가 잘못된 모델 응답과의 상관관계에 미치는 영향을 평가한다.
  • 토크나이제이션에 적응하는 적대적 예시를 자동으로 생성하는 확장 가능한 프레임워크를 시연한다.
  • 향후 LLM 시스템에서 토크나이제이션을 개선하기 위한 시사점을 강조한다.

제안 방법

  • 여러 LLM(중국어 및 영어)에서 어휘를 내보내어 ADT 어휘를 구축한다.
  • 선정된 토큰 주위에 도전적인 구간을 삽입하여 토크나이저를 오도하도록 ADT-Human을 수동으로 구성한다.
  • 자동으로 단어 쌍 매칭을 통해 트랩 워드를 생성하고 GPT-4를 사용하여 도전적인 인스턴스를 생성하는 ADT-Auto를 개발한다.
  • 필터링(토크나이제이션 리스트에 Trap Word의 존재) 및 수동 검토를 적용하여 인스턴스를 다듬는다.
  • 로컬 및 API 배포의 다양한 오픈 소스 및 폐쇄 소스 LLM에 대해 ADT를 테스트한다.

실험 결과

연구 질문

  • RQ1토크나이제이션 오류가 특정 입력에 대해 직접적으로 잘못되거나 비논리적인 모델 출력으로 이어지는가?
  • RQ2수동으로 구성된 ADT-Human이 LLM 전반에서 토크나이제이션 취약점을 드러내는 데 얼마나 효과적인가?
  • RQ3자동으로 생성된 ADT-Auto 프레임워크가 여러 언어에 걸쳐 토크나이제이션에 도전하는 인스턴스를 안정적으로 생성할 수 있는가?
  • RQ4중국어와 영어 입력 간의 토크나이제이션 도전의 상대적 난이도는 모델별로 어떤 차이가 있는가?
  • RQ5더 큰 모델이 작은 모델보다 토크나이제이션 기반 적대적 입력에 대해 더 강건한가?

주요 결과

  • ADT-Human은 테스트된 모델 전반에서 매우 높은 오류율을 보이며 강한 토크나이제이션 취약점을 나타낸다.
  • GPT-4o 및 다른 최첨단 모델도 ADT-Human에서 여전히 비관계적이지 않은 오류율을 보이며, 규모에도 불구하고 토크나이제이션 결함이 지속되고 있음을 시사한다.
  • ADT-Auto는 231개의 중국어 인스턴스를 생성하여 상당한 잘못된 토큰화 효과를 확인하며 자동 생성의 효과를 입증한다.
  • 오픈 소스 LLM은 ADT-Auto에서 폐쇄 소스 모델보다 토큰화 약점을 더 명확히 보이는 경향이 있어 모델 개발자가 더 나은 토크나이저에 접근할 수 있음을 시사한다.
  • 더 큰 모델은 토크나이제이션 도전에 대해 더 강건한 경향이 있지만 여전히 오류에 면역되지는 않는다.
  • 이 연구는 토크나이제이션 알고리즘과 어휘 설계를 향상시키는 데 도움이 되는 프레임워크와 데이터셋을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.