[论文解读] "How do I fool you?": Manipulating User Trust via Misleading Black Box Explanations
本文提出了一套理论框架与方法,用于生成高保真度、具有误导性的黑箱解释,从而操纵用户对机器学习模型的信任。通过针对刑事司法专家的用户研究,研究发现:即使用户已被告知解释不具备因果性,仅省略禁止特征(如种族、性别)而包含理想特征(如前科记录)的解释,仍会使信任度提升9.8倍。
As machine learning black boxes are increasingly being deployed in critical domains such as healthcare and criminal justice, there has been a growing emphasis on developing techniques for explaining these black boxes in a human interpretable manner. It has recently become apparent that a high-fidelity explanation of a black box ML model may not accurately reflect the biases in the black box. As a consequence, explanations have the potential to mislead human users into trusting a problematic black box. In this work, we rigorously explore the notion of misleading explanations and how they influence user trust in black-box models. More specifically, we propose a novel theoretical framework for understanding and generating misleading explanations, and carry out a user study with domain experts to demonstrate how these explanations can be used to mislead users. Our work is the first to empirically establish how user trust in black box models can be manipulated via misleading explanations.
研究动机与目标
- 调查并探究事后解释是否以及如何使用户对存在偏见或不可靠的黑箱机器学习模型产生信任。
- 构建一个理论框架,解释为何在特征相关性和省略敏感属性的情况下,高保真解释仍可能具有误导性。
- 设计一种方法,通过战略性地排除问题特征(如种族、性别)同时包含理想特征,以操纵用户信任。
- 通过在刑事司法领域开展受控用户研究,实证评估此类误导性解释对领域专家信任水平的影响。
- 探索交互式解释框架作为缓解策略,以降低用户对误导性解释的易感性。
提出的方法
- 提出一个理论框架,识别出即使完美匹配黑箱预测,高保真解释仍可能具有误导性的条件。
- 扩展MUSE框架,生成更符合用户感知相关特征(如前科记录)且省略用户感知问题特征(如种族、性别)的解释。
- 利用特征相关性重构被禁止的特征(如从邮编推断种族),同时在解释中排除这些特征,以生成看似合理但具有欺骗性的解释。
- 开展一项用户研究,招募22名法律与刑事司法领域的专家,向其展示黑箱模型及其解释,以测量信任水平。
- 通过是否愿意部署的二选一问题测量信任度,并分析定性理由以验证信任驱动因素。
- 进行后续研究,使用交互式解释工具(MUSE)评估当用户可获取多种视角时,其信任度是否下降。
实验结果
研究问题
- RQ1高保真度的事后解释是否可能误导用户,使其信任本应不可靠的黑箱模型?
- RQ2在刑事司法等敏感领域,解释中的哪些特定特征最强烈地影响用户信任?
- RQ3在保持高保真度的同时,解释在多大程度上可被操纵以排除禁止特征(如种族、性别),同时提升感知信任度?
- RQ4警告用户解释为相关性而非因果性,是否能降低其对误导性解释的易感性?
- RQ5交互式解释系统是否可通过揭示同一模型的多个视角,降低信任被操纵的风险?
主要发现
- 仅9.1%的领域专家在看到黑箱内部行为后信任该模型,确立了极低的信任基线。
- 当展示一个排除种族与性别但包含前科记录和逃逸风险的误导性解释时,88%的专家信任该黑箱模型——信任度提升了9.8倍。
- 包含禁止特征(如种族、性别)的解释导致信任度较低(仅10%),表明此类特征的存在会降低感知可靠性。
- 专家更倾向于信任包含理想、合法特征(如曾入狱)的解释,即使模型实际使用了被禁止的属性。
- 尽管明确被告知解释仅为相关性而非因果性,仍有88%的参与者在看到误导性解释后信任该模型。
- 在使用MUSE的交互式环境中,仅有16.7%的专家信任该黑箱模型,表明多重视角的可访问性可降低用户对操纵的易感性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。