[论文解读] Multiplicative LSTM for sequence modelling
该论文提出了一种新型循环神经网络架构——乘法LSTM(mLSTM),通过将长短期记忆(LSTM)单元与乘法循环神经网络(mRNN)的权重分解相结合,实现输入相关的隐藏状态转移。通过为每个输入分配不同的循环函数,mLSTM在自回归序列建模中提升了表达能力与鲁棒性,在字符级语言建模基准测试中取得了最先进性能,包括在text8上达到1.27 bits/char,在Hutter Prize上达到1.24 bits/char,优于标准LSTM及其深层变体。
We introduce multiplicative LSTM (mLSTM), a recurrent neural network architecture for sequence modelling that combines the long short-term memory (LSTM) and multiplicative recurrent neural network architectures. mLSTM is characterised by its ability to have different recurrent transition functions for each possible input, which we argue makes it more expressive for autoregressive density estimation. We demonstrate empirically that mLSTM outperforms standard LSTM and its deep variants for a range of character level language modelling tasks. In this version of the paper, we regularise mLSTM to achieve 1.27 bits/char on text8 and 1.24 bits/char on Hutter Prize. We also apply a purely byte-level mLSTM on the WikiText-2 dataset to achieve a character level entropy of 1.26 bits/char, corresponding to a word level perplexity of 88.8, which is comparable to word level LSTMs regularised in similar ways on the same task.
研究动机与目标
- 为解决标准RNN在面对意外或错误输入时因固定、与输入无关的隐藏状态转移而难以恢复的问题。
- 通过实现灵活、与输入相关的循环转移函数,提升序列建模的表达能力,同时避免覆盖长期记忆。
- 开发一种结合LSTM记忆控制能力与mRNN输入相关动态特性的循环架构,以提升自回归密度估计的性能。
- 评估输入相关转移是否能在字符级语言建模中超越深层架构或正则化技术本身的效果。
提出的方法
- mLSTM将LSTM的门控机制与mRNN的分解权重矩阵相结合,其中隐藏状态到隐藏状态的转移由当前输入调制。
- 隐藏状态更新通过前一隐藏状态与依赖于输入的门向量之间的乘法交互计算,实现每个输入符号对应不同的转移函数。
- 为每个输入符号使用独立的参数集,实现与输入相关的转移动态,同时通过LSTM门控机制保持长期记忆。
- 在嵌入层和隐藏层应用正则化技术(如权重归一化和变分dropout(0.5))以防止过拟合。
- 使用交叉熵损失进行端到端训练,用于序列生成,通过字符级和字节级任务的bits-per-character与困惑度进行评估。
- 在标准基准数据集(text8、Hutter Prize和WikiText-2)上评估该方法,采用字符级和字节级建模方式。
实验结果
研究问题
- RQ1与标准LSTM及其深层变体相比,输入相关的循环转移函数是否能提升序列建模性能?
- RQ2LSTM门控与乘法权重分解的结合是否能比固定转移函数提供更强的对意外输入的鲁棒性?
- RQ3mLSTM是否能在不依赖深层循环架构或复杂正则化技术的情况下,实现与字符级语言建模相当的性能?
- RQ4与词级模型相比,mLSTM在字节级建模中的表现如何?尽管建模子词单元,它能否实现可比的困惑度?
主要发现
- mLSTM在text8数据集上达到1.27 bits/character,创下字符级语言建模的新SOTA记录。
- 在Hutter Prize基准测试中,mLSTM达到1.24 bits/character,与最佳先前结果持平,展现出在长上下文序列建模中的强劲性能。
- 纯字节级mLSTM模型在测试集上的交叉熵为1.2649 bits/char,对应WikiText-2上的词级困惑度为88.8。
- 尽管建模子词单元,字节级mLSTM的性能与采用先进正则化和架构增强的最先进词级LSTM相当。
- mLSTM在所有评估的字符级语言建模任务中均优于标准LSTM及其深层变体,表明输入相关转移具有显著优势。
- 该模型仅使用两个线性循环转移矩阵即取得具有竞争力的结果,表明当存在输入相关动态时,高循环深度并非强性能的必要条件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。