[论文解读] Automated Test Generation to Detect Individual Discrimination in AI Models
本文提出了一种基于黑盒符号执行的测试生成技术,利用局部可解释性(如 LIME)系统性地发现人工智能模型中的个体歧视问题——即仅在受保护属性(如性别、种族)上不同的两个人却获得不同决策。通过使用局部解释器生成的线性近似作为路径约束,该方法生成有针对性的测试用例,在基准测试中比最先进的随机测试方法多发现 3.72 倍的歧视性实例。
Dependability on AI models is of utmost importance to ensure full acceptance of the AI systems. One of the key aspects of the dependable AI system is to ensure that all its decisions are fair and not biased towards any individual. In this paper, we address the problem of detecting whether a model has an individual discrimination. Such a discrimination exists when two individuals who differ only in the values of their protected attributes (such as, gender/race) while the values of their non-protected ones are exactly the same, get different decisions. Measuring individual discrimination requires an exhaustive testing, which is infeasible for a non-trivial system. In this paper, we present an automated technique to generate test inputs, which is geared towards finding individual discrimination. Our technique combines the well-known technique called symbolic execution along with the local explainability for generation of effective test cases. Our experimental results clearly demonstrate that our technique produces 3.72 times more successful test cases than the existing state-of-the-art across all our chosen benchmarks.
研究动机与目标
- 为解决人工智能模型中个体歧视检测的关键挑战,即两个在受保护属性(如性别、种族)上仅存在差异的个体却获得不同决策的问题。
- 克服现有方法(如 THEMIS)中随机测试生成的局限性,这些方法无法系统性地探索具有歧视性的输入组合。
- 开发一种可扩展的黑盒方法,适用于复杂且不可解释的模型(如深度神经网络)。
- 通过将符号执行与局部可解释性结合,实现有针对性的、路径约束的输入生成,从而提高测试用例的有效性。
- 证明在初始故障检测后进行定向搜索,相比仅使用无向搜索,能显著提升歧视性案例的发现率。
提出的方法
- 使用局部解释器(如 LIME)为给定输入生成模型决策的线性近似,将其视为符号执行中的代理路径。
- 将线性模型的系数作为约束条件,以引导符号执行,从而系统性地探索能触发决策切换的输入变化。
- 应用带有约束求解的符号执行,通过迭代地否定或修改从局部解释中提取的约束,生成新的测试输入。
- 优先使用训练数据作为种子,进行无向符号搜索以实现初始探索,一旦发现歧视性案例则转入定向搜索。
- 通过仅选择局部解释器输出的高置信度、与决策相关的约束,优化搜索过程,减少不必要的约束切换,提升效率。
- 整合无向与定向搜索策略:无向搜索用于初始故障检测,定向搜索用于深入探索歧视性输入模式。
实验结果
研究问题
- RQ1基于局部可解释性的符号执行能否有效检测黑盒AI模型中的个体歧视?
- RQ2符号执行与局部解释结合的方法相比随机测试生成,在发现歧视性行为方面有何优势?
- RQ3在初始故障检测后采用定向搜索,相比仅使用无向搜索,能在多大程度上提升对歧视性输入组合的发现能力?
- RQ4使用训练数据作为符号执行初始阶段种子的有效性如何?
- RQ5所提出的方法是否能扩展到现实世界中非平凡的模型(如深度神经网络)中,且无需白盒访问?
主要发现
- 在所有基准测试中,所提方法生成的用于检测个体歧视的成功测试用例数量是当前最先进方法(THEMIS)的 3.72 倍。
- 在初始故障检测后采用定向搜索,相比仅使用无向搜索,显著发现了更多歧视性实例,尤其在德国年龄(German-age)和汽车(Car)等复杂模型中表现突出。
- 在某些基准测试(如德国年龄、人口普查(Census))中,仅使用符号执行和训练数据种子的无向搜索仅生成了 4–7 个测试用例,表明在缺乏初始故障检测的情况下,对谓词切换的置信度较低。
- 在汽车(Car)基准测试中,仅使用无向搜索生成了 179 个成功测试用例(总计 228 个),表明初始种子质量和约束置信度对性能有重大影响。
- 局部解释器的集成使得对不可解释模型(如深度神经网络)的高效黑盒测试成为可能,避免了对专用求解器或模型转换的需求。
- 该方法依赖于局部解释器提供的高置信度、与决策相关的约束,减少了不必要的约束切换,提升了测试用例的相关性和效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。