[论文解读] Semi-Supervised Sequence Modeling with Cross-View Training
本文提出交叉视图训练(Cross-View Training, CVT),一种用于序列建模的半监督学习方法,通过在未标记输入的受限视图上训练辅助预测头,使其预测结果与完整模型的输出保持一致,从而提升Bi-LSTM表示能力。CVT通过自监督与多任务学习联合优化表示,在五项序列标注任务、机器翻译和依存句法分析中均取得最先进性能。
Unsupervised representation learning algorithms such as word2vec and ELMo improve the accuracy of many supervised NLP models, mainly because they can take advantage of large amounts of unlabeled text. However, the supervised models only learn from task-specific labeled data during the main training phase. We therefore propose Cross-View Training (CVT), a semi-supervised learning algorithm that improves the representations of a Bi-LSTM sentence encoder using a mix of labeled and unlabeled data. On labeled examples, standard supervised learning is used. On unlabeled examples, CVT teaches auxiliary prediction modules that see restricted views of the input (e.g., only part of a sentence) to match the predictions of the full model seeing the whole input. Since the auxiliary modules and the full model share intermediate representations, this in turn improves the full model. Moreover, we show that CVT is particularly effective when combined with multi-task learning. We evaluate CVT on five sequence tagging tasks, machine translation, and dependency parsing, achieving state-of-the-art results.
研究动机与目标
- 解决预训练方法在表示学习过程中未使用特定任务标注数据的局限性。
- 克服标准自训练在NLP中固有的循环性问题,即模型在自身预测结果上进行训练而缺乏稳健的正则化。
- 开发一种有效利用未标记文本改进序列模型上下文表示的方法,且无需修改输入数据。
- 通过引入仅观察输入部分视图的辅助预测模块,实现在NLP中有效的半监督学习。
- 证明CVT可与多任务学习无缝结合,进一步提升性能并减少训练时间。
提出的方法
- 在标注数据上使用标准监督学习训练主Bi-LSTM编码器。
- 在未标记样本上,训练仅接收部分表示(例如仅前向LSTM隐藏状态)作为输入的辅助预测模块。
- 使用完整模型的预测结果作为软目标来训练辅助模块,强制不同视图之间的一致性。
- 通过共享的中间表示反向传播来自辅助模块的梯度,从而提升共享编码器的质量。
- 通过在相同共享编码器之上添加针对不同任务的额外预测头,将CVT与多任务学习结合。
- 采用知识蒸馏风格训练,其中完整模型作为教师,辅助模块作为学生,通过视图多样性提升对输入扰动的鲁棒性。
实验结果
研究问题
- RQ1能否通过利用未标记数据而不修改输入数据,实现半监督学习方法对序列模型表示能力的改进?
- RQ2在输入的受限视图上训练辅助模型,是否能产生优于标准自训练或预训练的上下文表示?
- RQ3CVT能否有效与多任务学习结合,以提升性能并减少训练时间?
- RQ4在具有离散输入的NLP任务中,CVT与一致性正则化和对抗性训练相比性能如何?
- RQ5使用多个视图一致的预测头是否能带来更鲁棒且泛化能力更强的表示?
主要发现
- CVT在五项序列标注任务上取得最先进性能:命名实体识别、词性标注、文本切块、依存句法分析和组合范畴语法超词性标注。
- 在英-越语机器翻译任务中,CVT优于先前发表的结果,证明其在序列标注之外任务中的有效性。
- 当与多任务学习结合时,CVT在性能上超越多任务ELMo模型,同时显著减少总训练时间。
- 该方法在多种架构中均表现有效,包括用于序列标注的Bi-LSTM编码器和序列到序列模型。
- 通过强制模型学习在部分输入视图下仍能保持鲁棒的上下文丰富特征,CVT显著提升了表示质量。
- 该方法具有鲁棒性和泛化能力,因其无需输入扰动或词嵌入噪声,因此适用于离散文本输入。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。