[论文解读] Causal structure based root cause analysis of outliers
本文提出了一种因果框架,用于在已知因果DAG和功能因果模型的情况下,识别多变量系统中异常值的根本原因。该框架引入了条件异常值得分,并利用Shapley值量化每个祖先变量对目标变量异常状态的贡献,从而实现对云监控或欺诈检测等系统中异常行为的精确归因。
We describe a formal approach to identify 'root causes' of outliers observed in $n$ variables $X_1,\dots,X_n$ in a scenario where the causal relation between the variables is a known directed acyclic graph (DAG). To this end, we first introduce a systematic way to define outlier scores. Further, we introduce the concept of 'conditional outlier score' which measures whether a value of some variable is unexpected *given the value of its parents* in the DAG, if one were to assume that the causal structure and the corresponding conditional distributions are also valid for the anomaly. Finally, we quantify to what extent the high outlier score of some target variable can be attributed to outliers of its ancestors. This quantification is defined via Shapley values from cooperative game theory.
研究动机与目标
- 正式定义在已知因果结构的多变量系统中,异常事件的'根本原因'概念。
- 开发一种系统化方法,量化每个祖先变量对目标变量异常状态的贡献程度。
- 通过利用功能因果模型和信息论异常值得分,实现对罕见或极端事件的因果解释。
- 通过合作博弈论中的Shapley值,实现对异常值得分的合理归因。
提出的方法
- 将信息论(IT)异常值得分定义为满足特定尾部概率边界条件的可测量函数,确保异常值概率呈指数衰减。
- 引入条件异常值得分,用于衡量在因果模型成立的前提下,给定父节点值时,某变量取值的意外程度。
- 使用功能因果模型(FCMs)将每个变量表示为其父节点和独立噪声的函数,从而支持反事实推理。
- 应用合作博弈论中的Shapley值,公平地将目标变量的总异常值得分归因于其祖先变量。
- 对联合分布进行变换,映射到异常值得分空间中的单纯形,从而实现尾部概率的精确计算。
- 在模拟数据和真实世界数据上验证了该框架,证明其在异常值归因中具有鲁棒性和可解释性。
实验结果
研究问题
- RQ1在已知因果DAG的多变量系统中,如何正式定义并量化异常事件的'根本原因'?
- RQ2目标变量的异常值得分在多大程度上可归因于其各个祖先变量?
- RQ3条件异常值得分是否能比单独使用边缘异常值检测提供更准确、更具因果性的异常值解释?
- RQ4合作博弈论,特别是Shapley值,如何被用于在祖先变量之间公平分配异常值得分?
- RQ5当因果模型在异常观测中也成立时,所提出的方法是否保持统计有效性?
主要发现
- 所提出的基于信息论的异常值得分确保了观测到得分 ≥ c 的概率随 e^(-c) 指数衰减,从而实现稳定且可解释的异常值量化。
- 条件异常值得分能有效隔离每个父变量对子变量取值意外程度的贡献,即使在异常条件下亦然。
- 基于Shapley值的归因方法能对目标变量的总异常值得分进行公平且唯一的祖先变量贡献分解。
- 该方法保持统计一致性:当因果模型在异常情况下也成立时,异常值得分分布在其变换后的单纯形空间中依然有效。
- 在真实和模拟数据上的实验结果表明,该框架能正确识别异常值的真实根本原因,优于非因果归因方法。
- 理论分析证明,在FCM假设下,给定父节点时某变量的条件异常值得分本身即为一个信息论异常值得分。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。