Skip to main content
QUICK REVIEW

[论文解读] To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

Nouran Khallaf, Serge Sharoff|arXiv (Cornell University)|Mar 7, 2026
Text Readability and Simplification被引用 0
一句话总结

该论文在噪声和领域转移下对九种不确定性估计方法在多语言文本分类上的鲁棒性进行基准评估,发现基于MC-dropout的方法在标定和选择性预测方面普遍比基于softmax的方法更稳健,尤其在低资源和域外场景中。

ABSTRACT

This study examines the role of uncertainty estimation (UE) methods in multilingual text classification under noisy and non-topical conditions. Using a complex-vs-simple sentence classification task across several languages, we evaluate a range of UE techniques against a range of metrics to assess their contribution to making more robust predictions. Results indicate that while methods relying on softmax outputs remain competitive in high-resource in-domain settings, their reliability declines in low-resource or domain-shift scenarios. In contrast, Monte Carlo dropout approaches demonstrate consistently strong performance across all languages, offering more robust calibration, stable decision thresholds, and greater discriminative power even under adverse conditions. We further demonstrate the positive impact of UE on non-topical classification: abstaining from predicting the 10\% most uncertain instances increases the macro F1 score from 0.81 to 0.85 in the Readme task. By integrating UE with trustworthiness metrics, this study provides actionable insights for developing more reliable NLP systems in real-world multilingual environments. See https://github.com/Nouran-Khallaf/To-Predict-or-Not-to-Predict

研究动机与目标

  • 评估不确定性估计(UE)方法如何影响多语言句子复杂度分类在噪声和域转移下的鲁棒性。
  • 在多语言与数据集上比较多样化的UE技术。
  • 分析多种UE评估指标以理解判别、标定与选择性预测。
  • 就将UE部署到实际多语言NLP系统提供可操作的指导。

提出的方法

  • 在Readme数据(翻译为二元简单/复杂任务)上训练多语言mBERT分类器(5折交叉验证)。
  • 评估九种UE方法,覆盖概率、几何与混合方法(SR、SMP、ENT、ENT-MC、PV、BALD、MD、LOF、ISOF、HUQ-MD、LOF、ISOF)。
  • 使用MC-Dropout(T=20)推导SMP、ENT_MC、PV、BALD变体;通过多次随机前向传播计算相关的不确定性分数。
  • 用三种度量视角评估UE质量:不确定性判别(ROC-AUC、AU-PRC)、标定(C-Slope、CITL、ECE)以及选择性预测(RC-AUC、N.RC-AUC、E-AUoptRC、TI)。
  • 通过在Vikidia/Wikipedia和Simplext上测试 Readme 之外的领域/语言转移,报告领域转移鲁棒性与放弃预测带来的增益。

实验结果

研究问题

  • RQ1在嘈杂和非主题条件下,不同不确定性估计方法在多语言句子复杂度分类中的表现如何?
  • RQ2哪些UE方法在跨语言和领域转移中提供稳定的标定与判别?
  • RQ3在域内与域外条件下,放弃最不确定预测对宏F1的影响如何?
  • RQ4UE度量之间的相关性如何,以及对实际多语言NLP中选择性预测的启示是什么?
  • RQ5在此设置下UE方法的实际计算成本如何?

主要发现

  • 基于Softmax的SR在高资源域内仍具竞争力,但在低资源或领域转移条件下表现下降。
  • 基于MC-Dropout的方法(SMP、ENT-MC、PV、BALD)在跨语言和不同条件下提供更稳健的标定与判别。
  • MD及混合的HUQ-MD提供一致的判别与选择性预测,但标定可能较弱。
  • 异常值检测器(ISOF、LOF)在判别/选择方面表现良好,但在语言间存在不稳定性;基于MD的评分总体更为可靠。
  • 从5–10%的最不确定预测中放弃可带来显著的宏F1提升(如Readme任务,SR/ENT在域内表现突出;在转移情形下MC-Dropout方法更具优势)。
  • SR和ENT在高资源域内计算成本低、鲁棒性好;但在域/语言变异下,MC-Dropout方法因更好的标定和可靠性仍然更可取。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。