[论文解读] Semi-supervised Sequence Learning
本文提出一种基于语言模型和序列自编码器的循环神经网络半监督预训练方法,以提升序列分类任务中的训练稳定性和泛化能力。通过在大规模无标签数据上使用无监督目标初始化LSTM,该方法在IMDB、DBpedia、20 Newsgroups和CIFAR-10数据集上取得了当前最优或具有竞争力的结果,且无需额外标注数据。
We present two approaches that use unlabeled data to improve sequence learning with recurrent networks. The first approach is to predict what comes next in a sequence, which is a conventional language model in natural language processing. The second approach is to use a sequence autoencoder, which reads the input sequence into a vector and predicts the input sequence again. These two algorithms can be used as a "pretraining" step for a later supervised sequence learning algorithm. In other words, the parameters obtained from the unsupervised step can be used as a starting point for other supervised training models. In our experiments, we find that long short term memory recurrent networks after being pretrained with the two approaches are more stable and generalize better. With pretraining, we are able to train long short term memory recurrent networks up to a few hundred timesteps, thereby achieving strong performance in many text classification tasks, such as IMDB, DBpedia and 20 Newsgroups.
研究动机与目标
- 解决深度LSTM网络在序列分类任务中训练不稳定和泛化能力差的问题。
- 探索利用大规模无标签数据的无监督预训练技术,以改善监督序列学习。
- 评估使用自编码器或语言模型进行预训练是否能带来比随机初始化更好的性能和更快的收敛速度。
- 研究预训练在相关领域之间的可迁移性,例如使用亚马逊评论数据提升烂番茄影评情感分类的性能。
- 将半监督序列学习的适用范围从文本扩展到非序列数据,如按行处理的图像。
提出的方法
- 在无标签序列上训练循环语言模型(下一个词预测)以预训练LSTM权重。
- 实现一种序列自编码器,将输入序列编码为固定长度的向量,并使用共享的编码器-解码器权重重建原始序列。
- 将自编码器或语言模型中学习到的编码器权重用作下游监督LSTM分类器的初始化。
- 通过在时间步上从0到1逐步增加标签预测损失权重,实现线性标签增益,以改善梯度流向早期层。
- 使用标准的通过时间反向传播算法在标注数据上微调预初始化的LSTM。
- 通过将图像按行处理为序列,将该方法扩展到非文本数据,并在自编码器中使用L2损失进行重建。
实验结果
研究问题
- RQ1使用语言模型或序列自编码器进行无监督预训练,是否能提升LSTM在文本分类任务中的训练稳定性和泛化能力?
- RQ2在相关领域的大规模无标签数据(如亚马逊评论)上进行预训练,是否能在不增加额外标注数据的情况下提升下游分类任务(如烂番茄影评)的性能?
- RQ3预训练与线性标签增益的结合对长序列和深度LSTM的性能有何影响?
- RQ4所提出的半监督方法能否推广到非文本序列数据,如按像素行序列处理的图像?
- RQ5预训练LSTM在IMDB、DBpedia和CIFAR-10等标准基准上的性能是否与当前最优模型相当或更优?
主要发现
- SA-LSTM和LM-LSTM模型在所有基准测试中均优于随机初始化的LSTM,其中SA-LSTM在20 Newsgroups上的测试误差达到15.6%,显著优于先前方法。
- 使用无标签的亚马逊评论数据对序列自编码器进行预训练,将烂番茄影评情感分类的准确率从79.7%提升至83.3%,相当于增加了大量标注数据。
- 在DBpedia字符级分类任务中,结合线性增益的SA-LSTM达到1.19%的测试误差,优于当前最优的卷积神经网络(如大型卷积网络的1.73%)。
- 线性标签增益机制将测试误差从1.32%(使用线性增益的LSTM)降低至1.19%(与SA-LSTM结合时),证明了梯度流动的改善。
- 在CIFAR-10上,2层的LM-LSTM达到18.0%的测试误差,优于非预训练LSTM(26.0%)和基线卷积深度置信网络(21.1%)。
- 序列自编码器方法在训练过程中比标准LSTM更稳定,且预训练步骤使得LSTM能够在长达数百个时间步的序列上进行训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。