[论文解读] Avoiding Your Teacher's Mistakes: Training Neural Networks with Controlled Weak Supervision
本文提出了一种多任务学习框架,通过联合训练目标神经网络和置信度网络,以提升弱监督数据的训练效果。通过使用在少量真实标签上训练的置信度网络,动态调节来自弱标签的梯度更新,该方法减少了由噪声标注引起的有害更新,从而在文档排序和情感分类任务中相比标准微调方法,实现了更快的收敛速度和更高的性能表现。
Training deep neural networks requires massive amounts of training data, but for many tasks only limited labeled data is available. This makes weak supervision attractive, using weak or noisy signals like the output of heuristic methods or user click-through data for training. In a semi-supervised setting, we can use a large set of data with weak labels to pretrain a neural network and then fine-tune the parameters with a small amount of data with true labels. This feels intuitively sub-optimal as these two independent stages leave the model unaware about the varying label quality. What if we could somehow inform the model about the label quality? In this paper, we propose a semi-supervised learning method where we train two neural networks in a multi-task fashion: a "target network" and a "confidence network". The target network is optimized to perform a given task and is trained using a large set of unlabeled data that are weakly annotated. We propose to weight the gradient updates to the target network using the scores provided by the second confidence network, which is trained on a small amount of supervised data. Thus we avoid that the weight updates computed from noisy labels harm the quality of the target network model. We evaluate our learning strategy on two different tasks: document ranking and sentiment classification. The results demonstrate that our approach not only enhances the performance compared to the baselines but also speeds up the learning process from weak labels.
研究动机与目标
- 解决在仅有有限真实标注数据可用、而大规模使用弱标注数据时训练深度神经网络的挑战。
- 缓解训练过程中由噪声或不可靠弱标签导致的性能下降问题。
- 通过过滤低置信度的弱监督信号,加速收敛过程。
- 在单一联合训练过程中统一学习任务特定表示与置信度估计。
- 在多样化的自然语言处理与信息检索任务中,证明受控弱监督的有效性。
提出的方法
- 在大量由启发式或自动化弱标注器弱标注的实例上训练目标网络。
- 在少量高质量人工标注样本上训练置信度网络,以预测弱标签的可靠性。
- 置信度网络输出每个样本的置信度分数,用于调节反向传播过程中对目标网络的梯度更新幅度。
- 目标网络的参数通过加权损失进行更新:$\boldsymbol{w}_{t+1} = \boldsymbol{w}_t - \frac{l_t}{b}\sum_{i=1}^{b}c_{\theta}(\tau_i,\tilde{y}_i)\nabla\mathcal{L}(f_{\boldsymbol{w}_t}(\tau_i),\tilde{y}_i) + \nabla\mathcal{R}(\boldsymbol{w}_t)$,其中 $c_{\theta}$ 为置信度分数。
- 目标网络与置信度网络共享一个共同的表示层,实现联合优化与双向信息交互。
- 该方法在半监督设置下运行,大规模利用弱标签,同时仅使用真实标签来校准监督质量。
实验结果
研究问题
- RQ1在少量真实标签上训练的置信度网络,是否能有效过滤目标网络训练过程中来自噪声弱标签的有害更新?
- RQ2通过置信度分数控制梯度更新,是否相比标准弱标签微调方法具有更快的收敛速度?
- RQ3与仅使用弱监督的基线方法相比,所提方法在验证集和测试集上的泛化能力提升程度如何?
- RQ4在低监督设置下,目标网络与置信度网络的联合训练,与教师-学生蒸馏或伪标签方法相比表现如何?
- RQ5在何种场景下,受控弱监督优于传统的两阶段预训练与微调流水线?
主要发现
- 所提方法(称为受控弱监督,CWS)在文档排序与情感分类任务上,收敛速度均快于仅使用弱监督(WSO)的方法。
- 在验证集上,CWS的损失下降速度明显快于WSO,表明对弱标签缺陷的过拟合程度更低。
- CWS在测试集上的表现显著优于弱标注器,且所需训练样本更少,证明了有效的知识迁移能力。
- 置信度网络成功识别出不可靠的弱标签,降低了其对参数更新的影响,提升了模型鲁棒性。
- 即使仅使用少量真实标注数据,目标网络与置信度网络的联合训练,其测试准确率也高于标准微调方法。
- 实证结果证实,通过置信度分数控制梯度更新,可增强模型泛化能力,并减少噪声引起的性能退化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。