Skip to main content
QUICK REVIEW

[论文解读] Disentangling Influence: Using disentangled representations to audit model predictions

Charles T. Marx, Richard L. Phillips|arXiv (Cornell University)|Jun 20, 2019
Machine Learning and Data Classification被引用 10
一句话总结

本文提出解耦影响审计(disentangled influence audits),一种利用解耦表征来识别并量化黑箱模型中间接特征影响的方法。通过解耦分离代理特征,该方法能够在局部和整体层面实现精确、可解释的审计,以评估这些代理特征对预测结果的影响,其在检测和测量间接影响方面优于现有方法。

ABSTRACT

Motivated by the need to audit complex and black box models, there has been extensive research on quantifying how data features influence model predictions. Feature influence can be direct (a direct influence on model outcomes) and indirect (model outcomes are influenced via proxy features). Feature influence can also be expressed in aggregate over the training or test data or locally with respect to a single point. Current research has typically focused on one of each of these dimensions. In this paper, we develop disentangled influence audits, a procedure to audit the indirect influence of features. Specifically, we show that disentangled representations provide a mechanism to identify proxy features in the dataset, while allowing an explicit computation of feature influence on either individual outcomes or aggregate-level outcomes. We show through both theory and experiments that disentangled influence audits can both detect proxy features and show, for each individual or in aggregate, which of these proxy features affects the classifier being audited the most. In this respect, our method is more powerful than existing methods for ascertaining feature influence.

研究动机与目标

  • 解决在复杂黑箱模型中审计间接特征影响的空白。
  • 通过解耦表征识别出通过间接路径影响模型预测的代理特征。
  • 实现对单个预测和整体结果中特征影响的显式计算。
  • 为现有影响审计方法提供一种更强大且可解释的替代方案。

提出的方法

  • 利用解耦表征将输入特征分解为解耦的可变因子。
  • 通过分析与目标预测相关的解耦成分来识别代理特征。
  • 在解耦表征上使用影响函数或类似方法计算影响分数。
  • 将影响计算同时应用于局部(单个预测)和全局(数据分布)层面。
  • 利用解耦结构将影响归因于特定代理特征,而非原始输入特征。
  • 结合解耦与影响分析,以区分直接与间接影响路径。

实验结果

研究问题

  • RQ1如何利用解耦表征检测通过间接路径影响模型预测的代理特征?
  • RQ2与现有方法相比,解耦影响审计在多大程度上能更准确地量化间接影响?
  • RQ3解耦影响审计能否识别出对单个预测或整体结果影响最强的代理特征?
  • RQ4该方法在真实数据集中区分直接与间接影响方面表现如何?

主要发现

  • 解耦影响审计成功检测到并非直接可预测但通过间接路径影响模型结果的代理特征。
  • 该方法能够精确地将影响归因于特定代理特征,无论是在局部还是整体层面。
  • 解耦表征通过隔离有意义的、解耦的可变因子,提升了影响分析的可解释性。
  • 该方法在识别和测量间接影响方面优于现有影响审计技术。
  • 实证结果表明,解耦影响审计能够揭示标准影响方法无法检测到的隐藏依赖关系和代理关系。
  • 该方法在识别间接影响机制方面,对多种数据集和模型架构均表现出鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。