QUICK REVIEW

[논문 리뷰] ByT5: Towards a token-free future with pre-trained byte-to-byte models

Linting Xue, Aditya Barua|arXiv (Cornell University)|2021. 05. 28.

Natural Language Processing Techniques인용 수 69

한 줄 요약

ByT5는 표준 트랜스포머가 UTF-8 바이트를 직접 처리할 수 있음을 보여주며, 토큰 없이도 사전학습된 모델이 토큰 기반 기준선과 많은 작업에서 대등하거나 경쟁력이 있고 노이즈에 대한 강건성이 향상됩니다.

ABSTRACT

Most widely-used pre-trained language models operate on sequences of tokens corresponding to word or subword units. By comparison, token-free models that operate directly on raw text (bytes or characters) have many benefits: they can process text in any language out of the box, they are more robust to noise, and they minimize technical debt by removing complex and error-prone text preprocessing pipelines. Since byte or character sequences are longer than token sequences, past work on token-free models has often introduced new model architectures designed to amortize the cost of operating directly on raw text. In this paper, we show that a standard Transformer architecture can be used with minimal modifications to process byte sequences. We characterize the trade-offs in terms of parameter count, training FLOPs, and inference speed, and show that byte-level models are competitive with their token-level counterparts. We also demonstrate that byte-level models are significantly more robust to noise and perform better on tasks that are sensitive to spelling and pronunciation. As part of our contribution, we release a new set of pre-trained byte-level Transformer models based on the T5 architecture, as well as all code and data used in our experiments.

연구 동기 및 목표

토큰 어휘 대신 원시 바이트에서 작동하는 토큰 없는 NLP 모델을 동기 부여하고 평가한다.
바이트 시퀀스를 처리하기 위해 최소한의 변경으로 트랜스포머 아키텍처를 적응시킨다.
다국어 태스크 전반에서 ByT5와 토큰 기반 기준선 간의 매개변수 수, FLOPs, 추론 속도 트레이드오프를 평가한다.
바이트 수준 모델링에서 입력 노이즈와 철자 변형에 대한 강건성을 보여준다.
사전 학습된 ByT5 모델 및 동반 코드/데이터를 공개한다.

제안 방법

토큰 어휘를 256 바이트 임베딩 및 특수 토큰으로 대체하고 UTF-8 바이트를 트랜스포머에 직접 입력한다.
평균 마스킹 바이트 길이가 20바이트인 스팬 손상 사전학습 목표를 사용하고(센티넬로 마지막 100 바이트 ID 재사용).
어휘 임베딩 매트릭스 부재를 보완하기 위해 인코더를 디코더보다 더 깊게 만든다(인코더 깊이 3배 디코더).
시퀀스 길이를 1024 바이트로 설정하고 다섯 모델 크기(Small, Base, Large, XL, XXL)를 훈련하며 2^20 토큰의 배치로 100만 스텝 동안 학습한다.
d_model 및 d_ff를 조정하여 약 2.5배의 d_ff/d_model 비율을 유지하면서 ByT5 아키텍처를 mT5와 매개변수 매칭한다.
영어 및 다국어 벤치마크(GLUE, SuperGLUE, XSum, TweetQA, DROP, Dakshina, Sigmorphon, xtreme 태스크 포함)에서 평가하고 mT5와 비교한다.

실험 결과

연구 질문

RQ1표준 트랜스포머를 최소한의 아키텍처 변경으로 바이트 수준 입력에 효과적으로 적용할 수 있는가?
RQ2토큰 기반 입력에서 바이트 기반 입력으로 이동할 때 매개변수 수, FLOP, 추론 비용의 트레이드오프는 무엇인가?
RQ3영어 및 다국어 분류, 생성, 어절 단위 작업에서 ByT5의 성능은 mT5와 비교하여 어떤가?
RQ4언어별로 토큰 기반 모델보다 ByT5가 노이즈와 철자 변형에 더 강인한가?
RQ5토큰 없이 작동하는 트랜스포머에서 인코더/디코더 깊이 균형이 성능에 어떤 영향을 미치는가?

주요 결과

ByT5는 영어 및 다국어 벤치마크에서 mT5와 경쟁적이며 더 작은 모델 크기에서 mT5를 능가할 수 있다.
바이트 수준 ByT5는 강력한 생성 성능을 보이며 여러 크기에서 XSum, TweetQA, DROP에서 종종 mT5를 능가한다.
토큰 없는 ByT5는 어휘 관련 매개변수를 크게 줄이고 이를 트랜스포머 계층으로 재배치하여 인코더/디코더 깊이 비율을 3:1로 만들고 조밀한 매개변수 사용을 가능하게 한다.
ByT5는 태스크와 언어 전반에 걸쳐 노이즈와 난잡한 텍스트에 대한 강건성을 보여주며 다양한 입력 손상에서도 mT5에 비해 더 작은 저하를 보인다.
xtreme 다국어 태스크 전반에서 ByT5는 대체로 경쟁력이 있으며 모든 대상 언어에서 데이터가 있으면 현지 벤치마크에서 mT5를 능가하고 모델 크기에 따라 제로샷 및 translate-train 성능 패턴이 강하게 나타난다.
Abalation 연구들은 무거운 인코더가 ByT5에 가장 큰 이점을 주고, 더 긴 바이트 스팬 마스킹(평균 20 대 3 또는 40)이 특정 태스크를 향상시키며, 256바이트 어휘가 대부분의 매개변수를 어휘 행렬에서 조밀한 계층으로 이동시킨다고 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.