[论文解读] Universal Approximation of Input-Output Maps by Temporal Convolutional Nets
本文证明了时间卷积网络(TCNs)能够以任意精度普遍逼近具有有限记忆的一类输入-输出映射。它基于网络宽度、深度以及目标映射的连续模,建立了深层ReLU TCN的定量逼近速率,扩展了其与循环网络在具有有限长期依赖性的系统中的理论等价性。
There has been a recent shift in sequence-to-sequence modeling from recurrent network architectures to convolutional network architectures due to computational advantages in training and operation while still achieving competitive performance. For systems having limited long-term temporal dependencies, the approximation capability of recurrent networks is essentially equivalent to that of temporal convolutional nets (TCNs). We prove that TCNs can approximate a large class of input-output maps having approximately finite memory to arbitrary error tolerance. Furthermore, we derive quantitative approximation rates for deep ReLU TCNs in terms of the width and depth of the network and modulus of continuity of the original input-output map, and apply these results to input-output maps of systems that admit finite-dimensional state-space realizations (i.e., recurrent models).
研究动机与目标
- 建立时间卷积网络(TCNs)对具有近似有限记忆的输入-输出映射的普遍逼近能力。
- 推导深层ReLU TCN在宽度和深度方面的定量逼近误差界。
- 展示TCNs与循环网络在逼近具有有限长期时间依赖性的系统时的理论等价性。
- 分析来自有限维状态空间实现的映射的逼近速率,例如循环模型中的映射。
提出的方法
- 使用带扩张因果卷积的残差块对TCNs进行理论分析,以建模长程依赖性。
- 应用泛函分析技术,证明在具有有限记忆的一类输入-输出映射上实现普遍逼近。
- 基于目标映射的连续模以及网络深度和宽度,推导逼近误差界。
- 使用ReLU激活函数以增强模型表达能力,并便于对深层架构进行可处理的分析。
- 将逼近问题形式化为函数空间嵌入与赋范空间中的问题。
- 通过在有限记忆约束下建立理论等价性,比较TCN与循环网络的逼近性能。
实验结果
研究问题
- RQ1TCNs能否以任意精度普遍逼近具有有限记忆的广泛类输入-输出映射?
- RQ2深层ReLU TCN的逼近速率在宽度和深度方面如何量化?
- RQ3对于具有有限长期依赖性的系统,TCNs的逼近特性与循环网络相比如何?
- RQ4TCNs在多大程度上可以逼近来自有限维状态空间模型的映射?
- RQ5输入-输出映射的连续模如何影响给定逼近容差下所需的网络容量?
主要发现
- TCNs能够以任意误差容限普遍逼近任何具有近似有限记忆的输入-输出映射。
- 逼近误差随网络深度和宽度的增加而衰减,且显式依赖于目标映射的连续模。
- 对于具有Hölder连续正则性的映射,随着深度和宽度的增加,逼近速率提升,可实现多项式收敛速率。
- TCNs在逼近能力上与循环网络在具有有限长期时间依赖性的系统中达到理论等价。
- 结果为TCNs在序列到序列建模中的经验成功提供了正式依据,尤其在长程依赖性较弱的场景中。
- 该框架可直接应用于来自有限维状态空间实现的输入-输出映射,例如循环神经网络中的映射。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。