[论文解读] STCN: STOCHASTIC TEMPORAL CONVOLUTIONAL NETWORKS
本文提出了一种新型架构——随机时序卷积网络(STCNs),通过将分层随机潜在变量整合到时序卷积网络(TCNs)中,增强了建模能力,同时保持了计算并行性。通过将确定性TCN模块与随机层解耦,并利用基于不同感受野的多尺度潜在层次结构,STCNs在手写生成等序列建模任务中实现了最先进(SOTA)的对数似然性能,ELBO得分和样本质量均有显著提升。
Convolutional architectures have recently been shown to be competitive on many sequence modelling tasks when compared to the de-facto standard of recurrent neural networks (RNNs), while providing computational and modeling advantages due to inherent parallelism. However, currently there remains a performance gap to more expressive stochastic RNN variants, especially those with several layers of dependent random variables. In this work, we propose stochastic temporal convolutional networks (STCNs), a novel architecture that combines the computational advantages of temporal convolutional networks (TCN) with the representational power and robustness of stochastic latent spaces. In particular, we propose a hierarchy of stochastic latent variables that captures temporal dependencies at different time-scales. The architecture is modular and flexible due to the decoupling of the deterministic and stochastic layers. We show that the proposed architecture achieves state of the art log-likelihoods across several tasks. Finally, the model is capable of predicting high-quality synthetic samples over a long-range temporal horizon in modeling of handwritten text.
研究动机与目标
- 弥合确定性TCNs与更具表现力的随机RNN变体在序列建模中的性能差距。
- 在引入分层随机性以提升表征能力的同时,保持TCNs的计算效率与并行性。
- 设计一种模块化框架,将确定性与随机组件解耦,支持与任意TCN架构的灵活集成。
- 通过实证验证,STCN中的分层潜在变量可防止后验坍缩,并在多种序列数据集上提升建模能力。
提出的方法
- 引入分层随机潜在变量结构,其中每一层的先验分布依赖于前一时间步的TCN表征,实现多尺度时间依赖建模。
- 将确定性TCN模块与随机层解耦,使基础TCN可独立堆叠而无需修改,从而保持可扩展性与并行性。
- 采用条件先验机制,使每一潜在层的先验分布依赖于前一时间步的TCN表征,确保潜在层次结构的时间一致性。
- 提出两种推理配置:标准配置(每层单一样本)与STCN-dense配置(在预测前拼接所有潜在样本),以增强信息流动并防止潜在变量失活。
- 使用变分推断并优化证据下界(ELBO),其中近似后验分布依赖于每个时间步的TCN特征。
- 在TCN主干中使用空洞卷积,以实现大感受野,从而在无需循环结构的情况下建模长程依赖。
实验结果
研究问题
- RQ1能否在不破坏TCNs计算并行性的前提下,有效集成分层随机潜在结构?
- RQ2与耦合的随机TCN变体相比,解耦TCNs中的确定性与随机组件是否能提升建模能力与对数似然性能?
- RQ3多尺度潜在层次结构能否防止后验坍缩并提升序列建模中的表征学习能力?
- RQ4受CNN中密集连接启发的STCN-dense配置,是否能提升潜在变量的利用率并改善生成质量?
主要发现
- 在IAM-OnDB数据集上,STCN-dense的ELBO得分为71,386,显著优于所有基线模型,包括LadderRNN与SWaveNet。
- 在TIMIT数据集上,STCN-dense的ELBO得分为70,294,较次优模型(5x512-LadderRNN-dense)高出超过1,600分。
- STCN在所有评估数据集(IAM-OnDB、Deepwriting、TIMIT与Blizzard)上均实现了最先进(SOTA)的对数似然性能。
- STCN生成的合成样本表现出高感知质量与长程时间一致性,与ELBO得分的定量提升相匹配。
- 在STCN框架中用堆叠LSTM替换TCN模块后性能下降,表明分层潜在设计在空洞卷积的时间归纳偏置下表现最佳。
- STCN-dense配置有效防止了高层潜在变量的失活,表现为持续的性能增益以及潜在变量与观测变量之间互信息的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。