[论文解读] Bias in Machine Learning -- What is it Good for?
本文提出了对机器学习中偏差多种含义的分类法,区分学习过程中的偏差,并讨论它们之间的关系及对模型偏差和社会公正的影响。
In public media as well as in scientific publications, the term \emph{bias} is used in conjunction with machine learning in many different contexts, and with many different meanings. This paper proposes a taxonomy of these different meanings, terminology, and definitions by surveying the, primarily scientific, literature on machine learning. In some cases, we suggest extensions and modifications to promote a clear terminology and completeness. The survey is followed by an analysis and discussion on how different types of biases are connected and depend on each other. We conclude that there is a complex relation between bias occurring in the machine learning pipeline that leads to a model, and the eventual bias of the model (which is typically related to social discrimination). The former bias may or may not influence the latter, in a sometimes bad, and sometime good way.
研究动机与目标
- 澄清文献中对机器学习中偏差的不同用法和定义。
- 提出沿着机器学习流程的偏差分类法(世界、数据生成、学习)。
- 讨论不同偏差类型如何相互作用并影响最终模型偏差,包括伦理和因果方面的考量。
提出的方法
- 对已发表的研究进行调查,以对机器学习中遇到的偏差进行分类和定义。
- 通过描述性名称为共享概念引入并标准化术语。
- 提出一个分类法图并讨论偏差类型之间的联系。
- 讨论因果考量以及世界本如实状况与世界理应如此之间的区别。
实验结果
研究问题
- RQ1在文献中用于与机器学习相关的偏差的不同概念有哪些?
- RQ2在世界、数据生成与学习阶段产生的偏差如何与最终模型中观察到的偏差相关?
- RQ3为了在 ML 中实现清晰完整的偏差分类法,需要哪些术语及扩展?
主要发现
- 在机器学习中存在多种、有时相互冲突的偏差概念,涵盖学习、数据以及与世界相关的因素。
- 将历史/世界偏差、数据生成偏差和学习偏差联系起来的分类法有助于解释偏差如何传播到模型偏差。
- 模型偏差受因果因素影响,可能是可取的或不可取的,取决于任务和规范性目标。
- 许多偏差概念相互关联,由于分类器性能指标之间的权衡,无法同时避免。
- 去偏可以针对应如实世界或用于训练模型的数据中的任一方,二者具有不同的含义。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。