[论文解读] Hierarchical Multiscale Recurrent Neural Networks
介绍 HM-RNN(HM-LSTM),能够在序列中学习潜在的分层多尺度结构,而无需显式边界,使用自适应边界检测器和三种操作(UPDATE、COPY、FLUSH)。在字符级语言建模方面展示了最先进的结果,在 handwriting 序列生成方面也有强劲表现。
Learning both hierarchical and temporal representation has been among the long-standing challenges of recurrent neural networks. Multiscale recurrent neural networks have been considered as a promising approach to resolve this issue, yet there has been a lack of empirical evidence showing that this type of models can actually capture the temporal dependencies by discovering the latent hierarchical structure of the sequence. In this paper, we propose a novel multiscale approach, called the hierarchical multiscale recurrent neural networks, which can capture the latent hierarchical structure in the sequence by encoding the temporal dependencies with different timescales using a novel update mechanism. We show some evidence that our proposed multiscale architecture can discover underlying hierarchical structure in the sequences without using explicit boundary information. We evaluate our proposed model on character-level language modelling and handwriting sequence modelling.
研究动机与目标
- 在 RNN 中动机与解决同时学习分层与时间表示的挑战
- 开发一个在没有显式边界信息的情况下发现潜在分层结构的模型
- 通过自适应、多尺度更新来提高效率与对长期依赖的建模能力
提出的方法
- 在每一层提出一个边界检测器,在给定抽象层的边界处开启以标记分段边界
- 在每个时间步对每一层实现三种操作:UPDATE(在检测到边界时稀疏更新)、COPY(保留前一状态)、FLUSH(将段表示输出至上一层并重置)
- 通过结合 LSTM 风格的状态和门控,扩展为 HM-LSTM,具有自顶向下与自底向上的交互以及一个硬边界信号
- 使用直通估计器来训练离散边界决策,并采用斜率退火技巧在训练期间减少偏差
- 定义基于序列建模的负对数似然的训练目标,并应用于字符级语言建模与 handwriting 序列生成
- 通过逐层门控将输出组合,形成最终的下一个符号分布
实验结果
研究问题
- RQ1一个递归网络是否能够在没有显式边界标签的情况下发现序列中的潜在分层结构?
- RQ2自适应、多尺度更新在捕获时序依赖和减少计算开销方面的有效性如何?
- RQ3分层边界检测与文本数据中的自然语言或语义边界是否对齐?
- RQ4直通估计器(带斜率退火)在训练具有离散边界决策的模型中是否有效?
主要发现
- HM-RNN 在没有边界监督的情况下发现了序列的潜在分层结构,较低层学习更细的时间尺度,较高层学习更粗的时间尺度
- 在 Penn Treebank 上,带步长边界和斜率退火的 HM-LSTM 实现了 1.24 bits-per-character (BPC),与若干基线结果相当甚至更优
- 在 Text8 上,HM-LSTM 达到 1.29 BPC,是当时报道的神经模型中的最优之一
- 在 Hutter Prize Wikipedia 上,HM-LSTM 达到 1.32 BPC,与当前最优神经模型结果并列
- 可视化结果显示边界检测器与可行的词/短语边界及信息丰富的分层分段对齐
- 在 handwriting 序列生成(IAM-OnDB)中,HM-LSTM 的对数似然显著优于标准 LSTM,表明对实值序列具有泛化能力
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。