Skip to main content
QUICK REVIEW

[논문 리뷰] xVal: A Continuous Numerical Tokenization for Scientific Language Models

Siavash Golkar, M. Pettee|arXiv (Cornell University)|2023. 10. 04.
Topic Modeling인용 수 7
한 줄 요약

xVal은 LLM에서 실수를 위한 연속적이고 단일 토큰 숫자 인코딩을 도입하여 토큰 효율성과 보간을 개선하고, 엔드-투-엔드 연속 수치 추론을 위한 전용 숫자 헤드를 제공합니다.

ABSTRACT

Due in part to their discontinuous and discrete default encodings for numbers, Large Language Models (LLMs) have not yet been commonly used to process numerically-dense scientific datasets. Rendering datasets as text, however, could help aggregate diverse and multi-modal scientific data into a single training corpus, thereby potentially facilitating the development of foundation models for science. In this work, we introduce xVal, a strategy for continuously tokenizing numbers within language models that results in a more appropriate inductive bias for scientific applications. By training specially-modified language models from scratch on a variety of scientific datasets formatted as text, we find that xVal generally outperforms other common numerical tokenization strategies on metrics including out-of-distribution generalization and computational efficiency.

연구 동기 및 목표

  • LLMs를 위한 과학 데이터에서 숫자를 토큰화하는 도전 과제를 제시한다.
  • 숫자를 하나의 토큰으로 인코딩하고 값에 따라 임베딩을 스케일하는 연속 수치 인코딩(xVal)을 제안한다.
  • 입력 숫자에 대해 모델을 연속적으로 만들기 위한 수정된 숫자 추론 메커니즘을 도입한다.
  • 토큰 효율성과 일반화를 평가하기 위해 합성 데이터와 실제 과학 데이터셋에서 xVal를 기존 스키마와 비교 평가한다.

제안 방법

  • 숫자를 단일 [NUM] 토큰으로 대체하고 [NUM] 임베딩에 실제 수치 값을 곱하여 인코딩한다.
  • 최종 토큰 임베딩을 h_emb = h_num * h_text로 계산한 뒤 표준 트랜스포머 처리를 수행한다.
  • 임베딩 공간 내에서 수치 방향성을 보존하기 위해 위치 인코딩과 층 정규화를 적용한다.
  • 훈련 중에는 MLM과 AR 목표를 지원하기 위해 텍스트 구성요소와 숫자 구성요소를 선택적으로 마스킹한다.
  • 생성된 [NUM] 토큰에서 실제 수치를 예측하기 위해 MSE로 훈련된 별도의 숫자 헤드(스칼라 출력)를 도입한다.
  • xVal의 유한한 동적 범위를 유지하기 위해 입력 숫자를 고정된 범위로 정규화한다.

실험 결과

연구 질문

  • RQ1전통적인 숫자 기반 인코딩이나 프로토타입 기반 인코딩에 비해 연속적이고 단일 토큰 숫자 인코딩이 토큰 효율성을 향상시키는가?
  • RQ2xVal과 전용 숫자 헤드를 사용하여 입력-출력 숫자 매핑에서 엔드투엔드 연속성을 달성할 수 있는가?
  • RQ3합성 데이터와 실제 과학 데이터셋에서 보간 및 분포 외 숫자 작업에서 xVal의 성능은 어떤가?
  • RQ4과학 분야를 위한 LLM에서 연속 숫자 인코딩의 트레이드오프와 실패 모드는 무엇인가?

주요 결과

  • xVal은 숫자당 하나의 토큰을 사용하고 최소한의 어휘 크기로 더 높은 토큰 효율을 보인다.
  • 전용 숫자 헤드를 사용하면 입력-출력 숫자 매핑에서 엔드투엔드 연속성을 가능하게 해 보간을 향상시킨다.
  • xVal은 여러 데이터셋에서 우수한 보간 및 분포 외 일반화를 보여주고, 대안 스키마보다 계산 요구가 더 낮은 경우가 많다.
  • 기온 예측 작업에서 xVal이 최고 예측 성능을 달성했고 더 빠른 런타임을 보였다.
  • 행성 궤도 예측에서 xVal이 모든 인코딩보다 우수하지 않았으며 작업 의존적 편향과 한계를 강조한다.
  • 텍스트 기반 인코딩은 허위 상관관계와 더 긴 시퀀스 길이를 보일 수 있어 긴 범위 및 분포 외 성능에 영향을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.