[论文解读] Uncertainty Estimation in Autoregressive Structured Prediction
本文提出了一种基于集成的概率框架,用于在自回归结构化预测任务(如机器翻译和自动语音识别)中估计不确定性,并引入了新的度量如反向互信息,同时在翻译和语音识别数据集上提供了逐词与序列级的不确定性基线。
Uncertainty estimation is important for ensuring safety and robustness of AI systems. While most research in the area has focused on un-structured prediction tasks, limited work has investigated general uncertainty estimation approaches for structured prediction. Thus, this work aims to investigate uncertainty estimation for autoregressive structured prediction tasks within a single unified and interpretable probabilistic ensemble-based framework. We consider: uncertainty estimation for sequence data at the token-level and complete sequence-level; interpretations for, and applications of, various measures of uncertainty; and discuss both the theoretical and practical challenges associated with obtaining them. This work also provides baselines for token-level and sequence-level error detection, and sequence-level out-of-domain input detection on the WMT'14 English-French and WMT'17 English-German translation and LibriSpeech speech recognition datasets.
研究动机与目标
- 在概率集成框架内,为结构化、自回归预测任务的不确定性估计提供动机与开发。
- 在逐词和序列级别定义信息论意义上的总体不确定性与知识(本体论/认知)不确定性。
- 引入反向互信息(RMI)作为结构化预测的新不确定性度量。
- 提供实用的蒙特卡罗近似和与束搜索兼容的估计器,以便可控地计算不确定性。
- 为机器翻译与自动语音识别数据集建立逐词级和序列级错误检测及出域检测的基线。
提出的方法
- 采用贝叶斯集成视角,其中模型参数为随机变量,预测在近似后验q(theta)上进行平均。
- 将总体不确定性定义为预测后验的熵,并使用theta与y之间的信息互信息来分解知识不确定性。
- 引入反向互信息(RMI)作为一种新的多样性度量,RMI = K[y, theta|x,D] - I[y, theta|x,D]。
- 提出总体不确定性与知识不确定性的蒙特卡罗估计量,包括S-MC和C-MC变体;讨论用于序列不确定性的长度归一化速率形式。
- 考察两种集成组合方案:期望乘积(ExPr)与乘积期望(PrEx),并讨论它们对不确定性和预测的影响。
实验结果
研究问题
- RQ1在统一的集成框架中,如何为自回归结构化预测任务定义和估计不确定性?
- RQ2哪些信息论度量(总体、不确定性、数据和知识不确定性)最有效地表征逐词与序列级预测的不确定性?
- RQ3新颖的反向互信息(RMI)在结构化预测不确定性中有何作用?
- RQ4蒙特卡罗近似和束搜索的整合如何影响MT与ASR中不确定性估计的可行性与准确性?
- RQ5不确定性度量能否支持翻译与语音识别中的实际任务,如错误检测和出域输入检测?
主要发现
- 总体不确定性度量,尤其是联合序列估计,为序列级错误检测提供了有力信号。
- 乘积期望的集成组合在MT与ASR任务的BLEU与WER上提升了预测性能,相较于其他方法。
- 反向互信息(RMI)作为有用的知识不确定性度量,具有对OOD检测的有利特性。
- OOD检测性能因任务而异(ASR通常比MT更易检测到OOD),且随着领域不匹配增大而提升;RMI对拷贝效应具有鲁棒性。
- 从逐词预测后验导出的逐词不确定性度量在ASR错误检测中优于单纯熵,且乘积期望的逐词后验显示出强劲结果。
- 基线结果显示在WMT’14 EN-FR、WMT’17 EN-DE和LibriSpeech数据集上,基于不确定性的方法用于序列级错误检测与出域检测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。