QUICK REVIEW

[论文解读] Identifying Unknown Unknowns in the Open World: Representations and Policies for Guided Exploration

Himabindu Lakkaraju, Ece Kamar|arXiv (Cornell University)|Oct 28, 2016

Machine Learning and Data Classification被引用 44

一句话总结

本文提出一种模型无关的框架，通过基于特征相似性和模型置信度对测试空间进行划分，并结合带有oracle反馈的探索-利用策略，高效定位未知未知错误（即高置信度的错误预测）。该方法在极少的oracle查询下显著提升了未知未知检测性能，并提供了可解释的故障模式分析，有助于部署后模型的调试与理解。

ABSTRACT

Predictive models deployed in the real world may assign incorrect labels to instances with high confidence. Such errors or unknown unknowns are rooted in model incompleteness, and typically arise because of the mismatch between training data and the cases encountered at test time. As the models are blind to such errors, input from an oracle is needed to identify these failures. In this paper, we formulate and address the problem of informed discovery of unknown unknowns of any given predictive model where unknown unknowns occur due to systematic biases in the training data. We propose a model-agnostic methodology which uses feedback from an oracle to both identify unknown unknowns and to intelligently guide the discovery. We employ a two-phase approach which first organizes the data into multiple partitions based on the feature similarity of instances and the confidence scores assigned by the predictive model, and then utilizes an explore-exploit strategy for discovering unknown unknowns across these partitions. We demonstrate the efficacy of our framework by varying the underlying causes of unknown unknowns across various applications. To the best of our knowledge, this paper presents the first algorithmic approach to the problem of discovering unknown unknowns of predictive models.

研究动机与目标

为解决模型在现实世界部署时，由于训练数据中的系统性偏差导致的未知未知错误（即高置信度的错误预测）这一关键挑战。
开发一种黑盒方法，无需访问模型架构或训练数据，仅依赖模型预测结果和置信度分数。
设计一种高效、自适应的查询策略，平衡对未探索区域的探索与对已发现故障区域的利用。
生成特征空间中故障易发区域的可解释、紧凑描述，以辅助模型调试与系统设计。
为医疗保健和刑事司法等高风险领域中检测模型不完备性提供基础性的算法框架。

提出的方法

提出描述性空间划分（DSP），一种目标函数，通过贪婪近似方法（具有ln N近似保证）将特征和置信度分数相似的实例分组为可解释的分区。
采用多臂赌博机框架，指导在各分区中进行oracle查询，通过平衡新区域的探索与高产出区域的利用，实现高效搜索。
利用oracle反馈迭代优化搜索过程，动态更新置信度估计并重加权探索概率，优先选择未知未知密度更高的分区。
将模型置信度分数与特征相似性作为双重标准进行分区，确保高置信度错误被系统性地隔离。
通过识别显著的特征范围和置信度阈值，为每个分区生成人类可读的描述，为模型开发者提供可操作的洞察。
在固定查询预算下运行，将每次oracle标签视为高成本资源，优化每轮查询下未知未知错误的最大发现量。

实验结果

研究问题

RQ1在无法访问模型训练数据或架构的前提下，如何系统性地发现黑盒预测模型中的未知未知错误？
RQ2何种分区策略能有效将特征和置信度分数相似的实例分组，以隔离易发生高置信度错误的区域？
RQ3如何设计一种探索-利用机制，以高效分配有限的oracle查询资源，最大化在特征空间各区域的未知未知错误检测效果？
RQ4所发现的分区能否以人类可理解的方式进行描述，以支持模型调试与系统级缓解策略？
RQ5与主动学习或异常检测等现有方法相比，该框架在未知未知错误检测方面表现如何？

主要发现

所提出的描述性空间划分（DSP）方法在最优分区目标上实现了ln N近似，确保了基于特征和置信度的相似实例被近似最优地分组。
由赌博机算法引导的探索-利用策略在固定查询预算下，显著优于随机采样和均匀采样，在未知未知错误检测方面表现更优。
该框架成功识别出图像分类、自然语言处理和表格数据任务中高置信度的错误预测，包括因颜色偏差导致模型将白狗误分类为猫的案例。
生成的分区提供了可解释的描述（例如：'高置信度，灰色皮毛，小眼睛'），可直接关联到故障模式，支持针对性的模型修正或停用。
该方法是首个在黑盒设置下解决未知未知错误发现的算法框架，为现实世界部署提供了可扩展且通用的解决方案。
实证结果表明，该框架在未知未知错误检测方面比基线策略具有更高的精确率和召回率，尤其在分布偏移或数据偏差的情境下表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。