QUICK REVIEW

[论文解读] Towards Robustness to Label Noise in Text Classification via Noise Modeling

Siddhant Garg, Goutham Ramakrishnan|arXiv (Cornell University)|Jan 27, 2021

Machine Learning and Data Classification参考文献 26被引用 21

一句话总结

本文提出一种噪声建模方法，通过使用新颖的去噪损失联合训练分类器与辅助噪声模型，提升在标签噪声下的文本分类鲁棒性。该方法利用早期训练损失的贝塔混合模型估计样本的干净/噪声标签概率，随后应用加权交叉熵损失，优先处理干净样本，显著减少过拟合，并在随机噪声与输入相关噪声设置下提升准确率。

ABSTRACT

Large datasets in NLP suffer from noisy labels, due to erroneous automatic and human annotation procedures. We study the problem of text classification with label noise, and aim to capture this noise through an auxiliary noise model over the classifier. We first assign a probability score to each training sample of having a noisy label, through a beta mixture model fitted on the losses at an early epoch of training. Then, we use this score to selectively guide the learning of the noise model and classifier. Our empirical evaluation on two text classification tasks shows that our approach can improve over the baseline accuracy, and prevent over-fitting to the noise.

研究动机与目标

为应对大规模NLP数据集中的标签噪声问题，该问题会损害模型泛化能力。
开发一种方法，在训练过程中无需访问干净标签的情况下识别并减轻噪声标签的影响。
通过联合训练分类器与辅助噪声模型，捕捉复杂且与输入相关的噪声模式，提升模型鲁棒性。
通过使用估计的干净标签概率选择性地引导学习，减少对噪声标签的过拟合。

提出的方法

在早期训练阶段，对分类器的训练损失拟合一个两分量贝塔混合模型（BMM），以估计每个样本具有干净标签或噪声标签的概率。
噪声模型作为分类器之上的辅助网络进行训练，其输入为分类器倒数第二层的上下文嵌入表示。
提出一种新颖的去噪损失，包含两个部分：(1) 噪声模型预测与真实标签之间的交叉熵；(2) 分类器预测与真实标签之间的交叉熵，按估计的干净标签概率加权。
分类器被训练为优先关注干净标签概率较高的样本，从而提升在干净数据上的泛化能力。
噪声模型学习预测标签噪声函数，该函数可依赖于输入特征与原始标签，从而能够建模复杂且与输入相关的噪声。
推理阶段仅使用分类器，噪声模型被丢弃。

实验结果

研究问题

RQ1在文本分类中，基于早期训练损失训练的噪声模型能否有效识别干净与噪声样本？
RQ2通过去噪损失联合训练分类器与噪声模型，是否能提升对随机噪声与输入相关噪声的鲁棒性？
RQ3与标准训练相比，该方法能否有效减少对噪声标签的过拟合？
RQ4在不同噪声水平下，尤其是在输入相关设置下，该方法表现如何？

主要发现

在TREC数据集上，随机噪声比例为40%时，L_DN-H变体达到79.0%的测试准确率，优于基线（76.0%），且显著减少过拟合（基线过拟合差距为17.0%，本方法仅1.0%）。
在AG-News数据集上，随机噪声比例为50%时，L_DN-S变体达到75.6%准确率，优于基线（71.8%），且最佳模型与最后模型之间的准确率差距从15.8%降至1.4个百分点。
在TREC数据集的输入相关噪声设置下，该方法将最佳与最后模型准确率差距从基线的24.8个百分点降至30%噪声水平下的1.0个百分点，表现出强大的过拟合抑制能力。
在AG-News数据集上，基于源文本（AP、Reuters）的输入相关噪声设置下，该方法性能与基线相当（如L_DN-H为76.6%，基线为75.7%），表明即使噪声难以学习，方法依然有效。
该方法在训练各阶段表现出更强的稳定性，测试准确率在噪声水平上升时保持稳定，而基线模型则迅速过拟合。
在高噪声水平下，L_DN-H变体优于L_DN-S；而在低噪声水平下，L_DN-S表现更优，表明两者具有互补优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。