[论文解读] BP-Transformer: Modelling Long-Range Context via Binary Partitioning
BP-Transformer 使用二进制分区的多尺度图注意力机制,通过 O(k · n log(n/k)) 条连接建模长距离上下文,在长文本NLP任务上实现强性能,同时提高效率。
The Transformer model is widely successful on many natural language processing tasks. However, the quadratic complexity of self-attention limit its application on long text. In this paper, adopting a fine-to-coarse attention mechanism on multi-scale spans via binary partitioning (BP), we propose BP-Transformer (BPT for short). BPT yields $O(k\cdot n\log (n/k))$ connections where $k$ is a hyperparameter to control the density of attention. BPT has a good balance between computation complexity and model capacity. A series of experiments on text classification, machine translation and language modeling shows BPT has a superior performance for long text than previous self-attention models. Our code, hyperparameters and CUDA kernels for sparse attention are available in PyTorch.
研究动机与目标
- 推动在自注意力成本呈二次方增长之外改进长文本建模。
- 引入一个对多尺度跨度的分层、细到粗的注意力偏置。
- 通过稀疏、结构化的连接,在降低计算开销的同时平衡模型容量。
- 将输入表示为包含标记节点和跨度节点的图,通过图自注意力更新。
- 在句子级和文档级NLP任务中展示有效性。
提出的方法
- 使用二进制分区将输入序列划分为多尺度跨度,形成一个分层图。
- 构造两种边类型:关联边(跨度到包含的标记)和上下文边(细到粗的右侧上下文连接),密度由 k 控制。
- 通过在构建的图层之间的图自注意力来更新节点表示。
- 将相对位置编码推广到树结构,以在 BP-树上捕获位置偏置。
- 将相对树基位置表示并入注意力计算中(在多头之间共享)。
- 提供用于稀疏注意力的 CUDA 内核并报告训练/推理效率的提升。
实验结果
研究问题
- RQ1BP-Transformer 能否通过稀疏、分层连接高效建模长距离依赖?
- RQ2通过二进制分区的细到粗注意力是否在长文本上相对于原始 Transformer 及其他稀疏注意力模型带来性能提升?
- RQ3与强基线相比,BP-Transformer 在句子级和文档级NLP任务(分类、翻译、语言建模)上的表现如何?
主要发现
- BP-Transformer 在语言建模、翻译和文本分类上取得强劲结果,在长文本任务上超越基线。
- 在文本分类方面,BP-Transformer 在 SST-5 获得 52.71% (0.32) 和在 IMDB 获得 92.12% (0.11),k=2/4;在 IMDB 上优于 Transformer 和 Star Transformer。
- 以 Enwiki8/Text8 的字符级语言建模显示了最先进的性能,1.02/1.11 比特/字符(上下文长度最高 8192),使用 k=64。
- 在 IWSLT Zh-En 的文档级翻译中,BP-T 将 BLEU 提升到 19.84,相较于 18.91(句子级 Transformer)和 17.78(HAN-NMT)。
- 在句子级 WMT14 英-德,BP-T 的 BLEU 最高可达 27.6(k=4),在相同参数量下达到或超过 Transformer 基线。
- BP-Transformer 降低了 GPU 内存占用,并在长序列下保持稳定吞吐量,随着序列长度增加优于原始 Transformer。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。