[论文解读] An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
本文将一个简单、通用的时序卷积网络(TCN)与 LSTM/GRU/RNN 基线在多种序列建模任务上进行比较,结果发现 TCN 经常优于循环模型并显示出更长的实际记忆。
For most deep learning practitioners, sequence modeling is synonymous with recurrent networks. Yet recent results indicate that convolutional architectures can outperform recurrent networks on tasks such as audio synthesis and machine translation. Given a new sequence modeling task or dataset, which architecture should one use? We conduct a systematic evaluation of generic convolutional and recurrent architectures for sequence modeling. The models are evaluated across a broad range of standard tasks that are commonly used to benchmark recurrent networks. Our results indicate that a simple convolutional architecture outperforms canonical recurrent networks such as LSTMs across a diverse range of tasks and datasets, while demonstrating longer effective memory. We conclude that the common association between sequence modeling and recurrent networks should be reconsidered, and convolutional networks should be regarded as a natural starting point for sequence modeling tasks. To assist related work, we have made code available at http://github.com/locuslab/TCN .
研究动机与目标
- 促使重新评估在序列建模中默认使用循环网络的做法。
- 提供一个简单、规范的 TCN 架构,作为序列任务的起点。
- 在多样化基准(音乐、语言、合成测试)上,系统性比较 TCN 与规范化的 RNN。
- 分析 TCN 与 RNN 在记忆保持方面的差异,以理解长程依赖。
提出的方法
- 提出一个通用的时序卷积网络(TCN),采用因果一维卷积和零填充以保持序列长度。
- 引入膨胀因果卷积,在保留因果性的同时实现非常长的感受野。
- 使用带有 1x1 投影的残差块以匹配层维度并支持深层结构。
- 在 TCN 中应用权重归一化和空间 dropout 进行正则化。
- 在相同模型尺寸和标准优化(Adam、梯度裁剪)的条件下,将 TCN 与 LSTM、GRU 及普通 RNN 基线进行比较。
- 在广泛任务集上进行评估,包括多声部音乐建模、单词级与字符级语言建模,以及合成压力测试。
实验结果
研究问题
- RQ1具有因果、膨胀卷积的通用 TCN 是否能在标准序列建模基准上超越经典的循环结构?
- RQ2卷积网络在实际情境中是否能比 LSTM/GRU/RNN 模型保留更长的有效历史信息?
- RQ3TCN 在传统用于评估循环网络的任务(音乐、语言建模、合成记忆任务)上的表现如何?
- RQ4在内存使用和训练稳定性方面,TCN 与循环模型相比的实际权衡是什么?
主要发现
| 序列建模任务 | 模型规模(≈) | 模型 | LSTM | GRU | RNN | TCN |
|---|---|---|---|---|---|---|
| Seq. MNIST | 70K | 87.2 | 96.2 | 21.5 | 99.0 | |
| Permuted MNIST | 70K | 85.7 | 87.3 | 25.3 | 97.2 | |
| Adding problem T=600 | 70K | 0.164 | 5.3e-5 | 0.177 | 5.8e-5 | |
| Copy memory T=1000 | 16K | 0.0204 | 0.0197 | 0.0202 | 3.5e-5 | |
| Music JSB Chorales | 300K | 8.45 | 8.43 | 8.91 | 8.10 | |
| Music Nottingham | 1M | 3.29 | 3.46 | 4.05 | 3.07 | |
| Word-level PTB | 13M | 78.93 | 92.48 | 114.50 | 88.68 | |
| Word-level Wiki-103 | - | 48.4 | - | - | 45.19 | |
| Word-level LAMBADA | - | 4186 | - | 14725 | 1279 | |
| Char-level PTB (bpc) | 3M | 1.36 | 1.37 | 1.48 | 1.31 | |
| Char-level text8 (bpc) | 5M | 1.50 | 1.53 | 1.69 | 1.45 |
- TCNs 在广泛的序列建模任务中显著优于规范的循环网络。
- 在像 adding 问题和 copy memory 这样的合成压力测试中,TCN 收敛更快、损失更低。
- 在 Sequential MNIST 和 permuted MNIST 上,TCN 获得更高的准确率并更快收敛。
- 在多声部音乐(JSB Chorales、Nottingham)以及词级/字符级语言建模(PTB、WikiText-103、LAMBADA、text8)上,TCN 在不进行任务专用调优的情况下达到或超过循环基线。
- TCN 展现出比同等规模的 RNN 更长的有效记忆,证据来自 copy memory 和 LAMBADA 结果。
- 总体而言,本文主张卷积架构应成为序列建模的自然起点。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。