QUICK REVIEW

[论文解读] Explaining Models: An Empirical Study of How Explanations Impact Fairness Judgment

Jonathan Dodge, Q. Vera Liao|arXiv (Cornell University)|Jan 23, 2019

Explainable Artificial Intelligence (XAI)参考文献 35被引用 23

一句话总结

本实证研究探讨了不同解释风格如何影响人类对机器学习系统公平性的判断。基于真实世界数据集，通过程序化生成的四种解释类型——基于案例的、基于人口统计的、基于影响的和基于敏感性的——研究发现，解释风格显著影响公平性感知：以过程为导向的解释（如基于影响或敏感性的解释）能提升信任度，而以数据为导向的解释（如基于案例或人口统计的解释）可能降低公平性感知。个体在先前公平性立场上的差异进一步影响其反应，凸显了在支持公平机器学习部署时，个性化、自适应解释的必要性。

ABSTRACT

Ensuring fairness of machine learning systems is a human-in-the-loop process. It relies on developers, users, and the general public to identify fairness problems and make improvements. To facilitate the process we need effective, unbiased, and user-friendly explanations that people can confidently rely on. Towards that end, we conducted an empirical study with four types of programmatically generated explanations to understand how they impact people's fairness judgments of ML systems. With an experiment involving more than 160 Mechanical Turk workers, we show that: 1) Certain explanations are considered inherently less fair, while others can enhance people's confidence in the fairness of the algorithm; 2) Different fairness problems--such as model-wide fairness issues versus case-specific fairness discrepancies--may be more effectively exposed through different styles of explanation; 3) Individual differences, including prior positions and judgment criteria of algorithmic fairness, impact how people react to different styles of explanation. We conclude with a discussion on providing personalized and adaptive explanations to support fairness judgments of ML systems.

研究动机与目标

探讨不同解释风格如何影响人类对机器学习系统公平性的判断。
检验某些解释类型是否在揭示模型整体公平性问题与特定案例的公平性差异方面更为有效。
探讨个体差异（如对算法公平性的先前立场以及对特定特征的敏感度）在塑造对解释反应中的作用。
为设计支持准确且可信的公平性判断的个性化、自适应解释系统提供依据。

提出的方法

基于已有XAI文献，自动生成四种解释风格：基于案例的、基于人口统计的、基于影响的和基于敏感性的解释。
在真实世界数据集上训练一个机器学习模型，以生成用于解释的预测结果。
通过160名Amazon Mechanical Turk工作者开展在线实验，评估在不同解释条件下的人类公平性判断。
参与者需评估模型整体行为与个别预测的公平性，解释内容以随机顺序呈现。
通过统计分析比较不同解释类型下的公平性判断，同时控制个体在先前公平性立场及特定特征观点上的差异。
收集定性反馈，以分析用户对解释清晰度与可信度的偏好和感知。

实验结果

研究问题

RQ1不同解释风格如何影响人们对机器学习系统公平性的感知？
RQ2哪些解释风格在揭示模型整体公平性问题与特定案例的公平性差异方面最为有效？
RQ3个体差异（如对算法公平性的先前信念以及对敏感特征的看法）如何调节其对解释的反应？
RQ4解释在多大程度上增强或削弱了对机器学习公平性判断的信任？

主要发现

基于影响和基于敏感性的解释被认为更具可信度，并提升了人们对模型公平性的信心，而基于案例和基于人口统计的解释则被认为公平性较低。
以过程为导向的解释（即决策过程）普遍更受青睐，而以数据为导向的解释（即使用了哪些数据）虽有助于揭示数据分布问题，但整体偏好较低。
对机器学习系统持先前怀疑态度的参与者更易受解释风格影响，其中基于影响的解释在减少不信任方面效果更显著。
约三分之一的参与者认为将种族作为特征是中性或公平的，表明个体在公平性立场上存在显著差异。
研究发现，公平性判断不仅取决于解释内容，还受到用户对公平性及特定特征的既有看法的显著影响。
结合全局模型洞察与局部案例审查的混合型解释，被普遍认为在全面公平性评估中最为有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。