[论文解读] Human-AI Collaboration in Decision-Making: Beyond Learning to Defer
本文分析 Learning to Defer (L2D) 在人机决策中的应用,识别其在实际部署中的关键局限性,并概述旨在超越 L2D、构建更鲁棒、更加公正且更具动态性的 HAIC 系统的研究方向。
Human-AI collaboration (HAIC) in decision-making aims to create synergistic teaming between human decision-makers and AI systems. Learning to defer (L2D) has been presented as a promising framework to determine who among humans and AI should make which decisions in order to optimize the performance and fairness of the combined system. Nevertheless, L2D entails several often unfeasible requirements, such as the availability of predictions from humans for every instance or ground-truth labels that are independent from said humans. Furthermore, neither L2D nor alternative approaches tackle fundamental issues of deploying HAIC systems in real-world settings, such as capacity management or dealing with dynamic environments. In this paper, we aim to identify and review these and other limitations, pointing to where opportunities for future research in HAIC may lie.
研究动机与目标
- 阐明 L2D 框架在现实世界 HAIC 部署中的局限性。
- 评估容量、选择性标注、公平性和动态环境如何影响 HAIC 性能。
- 提出未来研究方向,超越 L2D,走向整体的 HAIC 系统。
提出的方法
- 回顾并综合学习延迟(L2D)框架及其数学表述。
- 解释 L2D 如何通过延期模型和主分类器来优化分配。
- 讨论局限性,如需要在所有训练样本上获得人类预测以及缺乏容量管理。
- 分析挑战,包括选择性标签、多个决策者、鲁棒性和公平性。
- 突出动态环境和非平稳性作为未被解决的因素。
- 概述超越 L2D 的潜在未来研究方向。
实验结果
研究问题
- RQ1在实际应用中, Learning to Defer 对 HAIC 的结构性局限性是什么?
- RQ2在 L2D 下,容量约束、选择性标注和多名专家如何影响 HAIC 的性能?
- RQ3HAIC 系统如何在动态环境中保持公平性和鲁棒性?
- RQ4哪些替代或互补方法能够解决有无人工预测数据与非平稳性的问题?
主要发现
- L2D 存在显著的实际局限性,包括对每个训练实例都需要人工预测以及缺乏显式的容量管理。
- L2D 的联合训练可能降低鲁棒性,并妨碍 AI 向人类提供分数或解释的咨询角色。
- 向多个专家延期增加数据收集负担,在现实团队中可能不可行,尤其是在没有同时预测的情况下。
- 容量管理、选择性标签、公平性和动态环境没有被 L2D 充分解决,需要新的方法。
- 非平稳环境和概念漂移带来 L2D 自然无法处理的挑战,需要持续更新和自适应系统。
- 本文呼吁开展整合性能、公平性、容量约束和对现实世界场景的适应性的全面 HAIC 研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。