[论文解读] MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
MegaByte 引入一种两层、基于补丁的解码器架构,通过将全局补丁级 transformers 与每个补丁的局部自回归建模相结合,能够在不依赖分词的情况下对大规模字节序列进行高效建模。
Autoregressive transformers are spectacular models for short sequences but scale poorly to long sequences such as high-resolution images, podcasts, code, or books. We proposed Megabyte, a multi-scale decoder architecture that enables end-to-end differentiable modeling of sequences of over one million bytes. Megabyte segments sequences into patches and uses a local submodel within patches and a global model between patches. This enables sub-quadratic self-attention, much larger feedforward layers for the same compute, and improved parallelism during decoding -- unlocking better performance at reduced cost for both training and generation. Extensive experiments show that Megabyte allows byte-level models to perform competitively with subword models on long context language modeling, achieve state-of-the-art density estimation on ImageNet, and model audio from raw files. Together, these results establish the viability of tokenization-free autoregressive sequence modeling at scale.
研究动机与目标
- 激发对非常长序列(字节)进行无分词序列建模的动机,并识别大型解码器中的低效之处。
- 提出一种多尺度解码器架构,将序列划分为带全局上下文的补丁和一个局部补丁内模型。
- 展示该架构实现亚二次注意力、较大的有效前馈容量以及更快的生成速度。
- 证明在语言建模方面具备竞争力,在 ImageNet 上达到最先进的密度估计,以及原始音频建模。
- 评估跨文本、图像和音频模态的计算和数据控制下的性能。
提出的方法
- 将输入序列切分为长度为 P 的固定大小补丁,从总长度 T 形成 K 个补丁。
- 使用补丁嵌入器将字节转换为带有位置信息的补丁表示。
- 使用一个大的全局 Transformer 在跨补丁的上下文中处理补丁表示(因果的、补丁级自注意力)。
- 在每个补丁内部应用一个较小的局部 Transformer,以利用全局输出和补丁内字节嵌入自回归地预测该补丁内的字节。
- 通过对局部嵌入表示进行 softmax,计算来自局部模型的标记概率。
- 可选地通过卷积补丁编码、跨补丁注意力和步进推理等扩展来提升效率和上下文利用率。
实验结果
研究问题
- RQ1一个无分词自回归模型是否能高效处理超过一百万字节的序列?
- RQ2两级(全局补丁级和局部补丁内) Transformer 架构是否在性能上具有竞争力且相较于标准解码器和现有长序列模型具有更高的效率?
- RQ3在文本、图像和音频任务中使用 MegaByte 时,自注意力复杂度、每标记计算量和生成速度的增益是多少?
- RQ4在固定计算预算下,补丁大小以及全局/局部模型容量分配如何影响性能?
主要发现
| Dataset | Transformer (bpb) | PerceiverAR (bpb) | MegaByte (bpb) |
|---|---|---|---|
| PG-19 | 1.057 | 1.104 | 1.000 |
| Stories | 1.064 | 1.070 | 0.978 |
| Books | 1.097 | 1.104 | 1.007 |
| arXiv | 0.816 | 0.791 | 0.678 |
| Code | 0.575 | 0.546 | 0.411 |
- MegaByte 在合适的补丁大小下实现亚二次自注意力,复杂度为 O(T^{4/3}),使百万字节序列建模成为可能。
- 每个补丁内的局部自回归允许在每个补丁内具有较大的前馈容量,同时保持总体计算量可控,提升模型表达能力。
- 在计算/数据控制的实验中,MegaByte 在长上下文语言建模(PG-19、Stories、Books、arXiv、Code)方面优于标准解码器 Transformer 和 PerceiverAR。
- 在 ImageNet 密度估计(64x64、128x128、640x640 变体)上,MegaByte 达到或超过最先进水平,同时使用大约一半的强基线计算量。
- 在原始字节的音频建模中,MegaByte 实现的每字节比特数(bpb)低于基于字节级的基线,证明了有效的无分词自回归音频建模。
- 步进推理和跨补丁扩展进一步提升性能,改善对长上下文的利用和生成速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。