[论文解读] Language Modeling with Gated Convolutional Networks
引入带门控线性单元的门控卷积网络(GCNN)用于语言建模,在 WikiText-103 上达到最新状态,在 Google Billion Word 上取得有竞争力的结果,同时相比循环模型具有更高的效率。
The pre-dominant approach to language modeling to date is based on recurrent neural networks. Their success on this task is often linked to their ability to capture unbounded context. In this paper we develop a finite context approach through stacked convolutions, which can be more efficient since they allow parallelization over sequential tokens. We propose a novel simplified gating mechanism that outperforms Oord et al (2016) and investigate the impact of key architectural decisions. The proposed approach achieves state-of-the-art on the WikiText-103 benchmark, even though it features long-term dependencies, as well as competitive results on the Google Billion Words benchmark. Our model reduces the latency to score a sentence by an order of magnitude compared to a recurrent baseline. To our knowledge, this is the first time a non-recurrent approach is competitive with strong recurrent models on these large scale language tasks.
研究动机与目标
- 以有限上下文、可高度并行化的语言建模作为循环网络的替代方案进行动机阐述。
- 在门控卷积网络中提出门控机制(GLU),以促进梯度流动和非线性建模。
- 在大规模数据集(Google Billion Word、WikiText-103)上评估 GCNNs 相对于循环模型和基线的表现。
- 分析上下文大小、门控机制、训练技巧和架构选择对性能与效率的影响。
提出的方法
- 定义在残差瓶颈块中使用门控线性单元(GLU)的卷积架构。
- 通过 h_l(X) = (X * W + b) ⊗ σ(X * V + c) 计算隐藏表示,并使用适当的因果填充以防止窥视未来。
- 使用预激活残差块以实现深层堆叠和梯度流动。
- 使用自适应Softmax进行高效的大词汇表预测。
- 尝试门控变体(GLU 与 GTU),并与线性及双线性/非线性替代进行比较。
- 评估上下文大小影响,并将吞吐量和响应性与 LSTM 进行比较。
实验结果
研究问题
- RQ1门控卷积网络在不使用递归的情况下,是否能够有效捕捉语言建模中的长程依赖?
- RQ2在训练效率和困惑度方面,GLU 门控机制与 LSTM 风格的门控相比如何?
- RQ3在大规模数据集上,上下文窗口大小对 GCNN 的性能有何影响?
- RQ4架构选择(残差块、瓶颈)和优化技巧如何影响训练速度和最终性能?
- RQ5在实际计算约束下,GCNN 是否能与大型语言建模基准的最先进循环模型竞争?
主要发现
| 模型 | 数据集 | 测试困惑度 | 硬件 |
|---|---|---|---|
| GCNN-13 | Google Billion Word | 38.1 | 1 GPU |
| GCNN-14 Bottleneck | Google Billion Word | 31.9 | 8 GPUs |
| LSTM-1024 (Grave et al. 2016b) | WikiText-103 | 48.7 | 1 GPU |
| GCNN-8 | WikiText-103 | 44.9 | 1 GPU |
| GCNN-14 | WikiText-103 | 37.2 | 4 GPUs |
- GCNN 在 WikiText-103 上实现最先进的困惑度,在 Google Billion Word 上具备竞争力的结果。
- 基于 GLU 的 GCNN 在 Wik-103 和 GBW 上比 LSTM 风格门控及其他激活函数收敛更快、困惑度更低。
- 上下文大小在大约 20-40 个标记处提升性能,超过此范围收益递减,即便对于较长的文档也是如此。
- 瓶颈残差块与权重归一化结合梯度裁剪显著加速训练并提高效率。
- GCNN 在GPU 上提供强大的吞吐量和更优的响应性,在可比硬件和输出近似设定下,相对于循环境基线有显著的加速。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。