QUICK REVIEW

[论文解读] BP-Transformer: Modelling Long-Range Context via Binary Partitioning

Zihao Ye, Qipeng Guo|arXiv (Cornell University)|Nov 11, 2019

Topic Modeling参考文献 31被引用 56

一句话总结

BP-Transformer 使用二进制分区的多尺度图注意力机制，通过 O(k · n log(n/k)) 条连接建模长距离上下文，在长文本NLP任务上实现强性能，同时提高效率。

ABSTRACT

The Transformer model is widely successful on many natural language processing tasks. However, the quadratic complexity of self-attention limit its application on long text. In this paper, adopting a fine-to-coarse attention mechanism on multi-scale spans via binary partitioning (BP), we propose BP-Transformer (BPT for short). BPT yields $O(k\cdot n\log (n/k))$ connections where $k$ is a hyperparameter to control the density of attention. BPT has a good balance between computation complexity and model capacity. A series of experiments on text classification, machine translation and language modeling shows BPT has a superior performance for long text than previous self-attention models. Our code, hyperparameters and CUDA kernels for sparse attention are available in PyTorch.

研究动机与目标

推动在自注意力成本呈二次方增长之外改进长文本建模。
引入一个对多尺度跨度的分层、细到粗的注意力偏置。
通过稀疏、结构化的连接，在降低计算开销的同时平衡模型容量。
将输入表示为包含标记节点和跨度节点的图，通过图自注意力更新。
在句子级和文档级NLP任务中展示有效性。

提出的方法

使用二进制分区将输入序列划分为多尺度跨度，形成一个分层图。
构造两种边类型：关联边（跨度到包含的标记）和上下文边（细到粗的右侧上下文连接），密度由 k 控制。
通过在构建的图层之间的图自注意力来更新节点表示。
将相对位置编码推广到树结构，以在 BP-树上捕获位置偏置。
将相对树基位置表示并入注意力计算中（在多头之间共享）。
提供用于稀疏注意力的 CUDA 内核并报告训练/推理效率的提升。

实验结果

研究问题

RQ1BP-Transformer 能否通过稀疏、分层连接高效建模长距离依赖？
RQ2通过二进制分区的细到粗注意力是否在长文本上相对于原始 Transformer 及其他稀疏注意力模型带来性能提升？
RQ3与强基线相比，BP-Transformer 在句子级和文档级NLP任务（分类、翻译、语言建模）上的表现如何？

主要发现

BP-Transformer 在语言建模、翻译和文本分类上取得强劲结果，在长文本任务上超越基线。
在文本分类方面，BP-Transformer 在 SST-5 获得 52.71% (0.32) 和在 IMDB 获得 92.12% (0.11)，k=2/4；在 IMDB 上优于 Transformer 和 Star Transformer。
以 Enwiki8/Text8 的字符级语言建模显示了最先进的性能，1.02/1.11 比特/字符（上下文长度最高 8192），使用 k=64。
在 IWSLT Zh-En 的文档级翻译中，BP-T 将 BLEU 提升到 19.84，相较于 18.91（句子级 Transformer）和 17.78（HAN-NMT）。
在句子级 WMT14 英-德，BP-T 的 BLEU 最高可达 27.6（k=4），在相同参数量下达到或超过 Transformer 基线。
BP-Transformer 降低了 GPU 内存占用，并在长序列下保持稳定吞吐量，随着序列长度增加优于原始 Transformer。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。