Skip to main content
QUICK REVIEW

[论文解读] The Impact of Presentation Style on Human-In-The-Loop Detection of Algorithmic Bias

Po-Ming Law, Sana Malik|arXiv (Cornell University)|Jan 1, 2020
Ethics and Social Impacts of AI参考文献 24被引用 1
一句话总结

本研究探讨了半自动偏差检测工具中的呈现风格如何影响人工参与的偏差审查。通过一项包含16名参与者的实验室研究,发现推荐列表会减少用户对未报告性能度量的考虑,从而提出两个设计轴——信息负载和全面性——以指导在偏差检测工具中何时使用推荐列表与视觉提示。

ABSTRACT

While decision makers have begun to employ machine learning, machine learning models may make predictions that bias against certain demographic groups. Semi-automated bias detection tools often present reports of automatically-detected biases using a recommendation list or visual cues. However, there is a lack of guidance concerning which presentation style to use in what scenarios. We conducted a small lab study with 16 participants to investigate how presentation style might affect user behaviors in reviewing bias reports. Participants used both a prototype with a recommendation list and a prototype with visual cues for bias detection. We found that participants often wanted to investigate the performance measures that were not automatically detected as biases. Yet, when using the prototype with a recommendation list, they tended to give less consideration to such measures. Grounded in the findings, we propose information load and comprehensiveness as two axes for characterizing bias detection tasks and illustrate how the two axes could be adopted to reason about when to use a recommendation list or visual cues.

研究动机与目标

  • 调查偏差检测工具中不同呈现风格如何影响人工参与审查过程中的用户行为。
  • 识别半自动偏差检测界面中推荐列表与视觉提示之间的设计权衡。
  • 解决在公平性审计工具中缺乏关于何时使用一种呈现风格而非另一种的指导问题。
  • 基于任务特征(如信息负载和全面性)提出选择合适呈现风格的框架。

提出的方法

  • 开发了两种呈现风格不同的半自动偏差检测原型:一种使用推荐列表,另一种使用视觉提示突出自动报告的偏差。
  • 开展了一项小规模实验室研究,16名参与者使用两种原型审查偏差报告。
  • 收集了用户手动选择进一步调查的性能度量数据,区分自动报告、未报告和手动选择的度量。
  • 分析用户行为,评估呈现风格如何影响对未报告性能度量的考虑。
  • 提出两个轴——信息负载和全面性——以表征偏差检测任务并指导工具设计。
  • 建议未来研究探索结合推荐列表与视觉提示的混合方法,以优先处理重要但未报告的度量,同时减轻认知负荷。

实验结果

研究问题

  • RQ1使用推荐列表与视觉提示在多大程度上影响用户对未报告性能度量的考虑?
  • RQ2在何种条件下,用户倾向于忽略未被自动标记为偏差的性能度量?
  • RQ3界面设计如何在不使用户信息过载的情况下支持对公平性度量的全面审查?
  • RQ4基于任务特征,哪些设计原则可指导半自动偏差检测工具中呈现风格的选择?
  • RQ5界面设计对检测机器学习模型中的交叉性偏差有何影响?

主要发现

  • 参与者经常希望调查工具未自动报告为偏差的性能度量。
  • 在使用推荐列表原型时,即使提供了直接检查这些度量的选项,参与者对未报告度量的考虑显著减少。
  • 视觉提示原型鼓励用户更彻底地审查已报告和未报告的度量,尤其是在信息负载较低的情境下。
  • 在信息负载较高但全面性非优先的情境下,推荐列表能有效降低认知负荷。
  • 高信息负载与高全面性结合的情况仍需进一步探索,因为这构成了一个具有挑战性的设计空间,现有方法可能难以应对。
  • 本研究揭示,界面设计显著影响公平性审计中用户注意力与决策,凸显了有意识工具设计的必要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。