Skip to main content
QUICK REVIEW

[논문 리뷰] Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP

Sabrina J. Mielke, Zaid Alyafeai|arXiv (Cornell University)|2021. 12. 20.
Natural Language Processing Techniques참고 문헌 174인용 수 103
한 줄 요약

이 논문은 토큰화, 프리토큰화, 오픈 어휘 모델링을 단어-, 부분어-, 문자 수준의 접근 방식에 걸쳐 조망하고, 트레이드오프와 역사적 진전을 강조하며 단 하나의 만능 해결책은 없다고 지적한다.

ABSTRACT

What are the units of text that we want to model? From bytes to multi-word expressions, text can be analyzed and generated at many granularities. Until recently, most natural language processing (NLP) models operated over words, treating those as discrete and atomic tokens, but starting with byte-pair encoding (BPE), subword-based approaches have become dominant in many areas, enabling small vocabularies while still allowing for fast inference. Is the end of the road character-level model or byte-level processing? In this survey, we connect several lines of work from the pre-neural and neural era, by showing how hybrid approaches of words and characters as well as subword-based approaches based on learned segmentation have been proposed and evaluated. We conclude that there is and likely will never be a silver bullet singular solution for all applications and that thinking seriously about tokenization remains important for many applications.

연구 동기 및 목표

  • NLP에서 토큰, 토큰화, 프리토큰화의 역사적 발전을 설명한다.
  • 낮은 빈도 단어와 새로운 단어를 다루기 위해 단어-레벨 모델에 문자 정보를 보강하는 접근법을 조사한다.
  • 고정된 어휘를 넘어서 분절화와 오픈 어휘 토큰화를 학습하는 방법을 설명한다.
  • 수동식, 데이터 기반, 베이지안 접근을 포함한 부분어 어휘 학습과 그것의 다국어 적용 가능성을 논의한다.
  • 다국어 및 노이즈 텍스트 맥락에서의 토큰화의 실질적 함의와 지속적인 논쟁을 강조한다.

제안 방법

  • 타이포그래피 토큰에서 프리토큰화 및 부분어 단위까지의 진화를 추적한다.
  • 철자 정보나 문자 정보를 활용해 OOV 단어를 다루는 단어-레벨 모델 보강 방법을 설명한다.
  • 단어+문자 하이브리드 및 토큰화 인지 아키텍처를 갖춘 오픈 어휘 언어 모델링을 상세히 설명한다.
  • 잠재 변수로서 분절화를 학습하고 주변화(근사적 또는 정확)를 계산하는 접근법을 제시한다.
  • 단어 발견과 분절을 위한 베이지안 비모수적 관점을 논의한다.
  • 수동으로 설계된 분석기와 데이터 기반 학습자를 포함한 부분어 어휘 학습 전략을 요약한다.

실험 결과

연구 질문

  • RQ1NLP에서 모델링되는 역사적이고 현대적인 텍스트 단위는 무엇이며, 토큰화 정의는 어떻게 진화해 왔는가?
  • RQ2낮은 빈도와 새로운 단어를 다루기 위해 단어-레벨 모델에 문자 정보를 보강하는 방법은 무엇인가?
  • RQ3고정 어휘를 넘어선 오픈 어휘 모델링과 토큰화에 대한 실행 가능한 접근법은 무엇인가?
  • RQ4분절화를 미리 정의하지 않고 학습하거나 추론하는 방법은 무엇이며, 다양한 주변화 전략의 트레이드오프는 어떠한가?
  • RQ5다언어 및 도메인에 걸친 부분어 어휘 방법의 강점과 한계는 무엇인가?

주요 결과

  • 부분어 및 문자 기반 토큰화 방법은 더 작은 어휘로 오픈 어휘 처리를 가능하게 한다.
  • 문자 정보를 보강한 단어-레벨 모델은 노이즈가 있는 텍스트와 새로운 철자 처리 개선에 도움을 준다.
  • 세그멘탈 및 주변화 기반 모델은 의미 있는 토큰 경계를 유도할 수 있지만 학습 안정성과 성능은 다양하다.
  • 비감독 및 베이지안 접근은 단어 경계와 분절을 발견하기 위한 원칙적 프레임워크를 제공한다.
  • 단일 최적의 토큰화는 없으며, 도메인, 언어, 과제가 단위와 방법의 선택에 영향을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.