[论文解读] Studying Up Machine Learning Data: Why Talk About Bias When We Mean Power?
本文主张将 ML 数据研究从偏见缓解转向一个关注权力的取向,考察数据生产、劳动和组织环境,并提出扩展数据质量、数据工作和数据文档化做法。
Research in machine learning (ML) has primarily argued that models trained on incomplete or biased datasets can lead to discriminatory outputs. In this commentary, we propose moving the research focus beyond bias-oriented framings by adopting a power-aware perspective to "study up" ML datasets. This means accounting for historical inequities, labor conditions, and epistemological standpoints inscribed in data. We draw on HCI and CSCW work to support our argument, critically analyze previous research, and point at two co-existing lines of work within our community -- one bias-oriented, the other power-aware. This way, we highlight the need for dialogue and cooperation in three areas: data quality, data work, and data documentation. In the first area, we argue that reducing societal problems to "bias" misses the context-based nature of data. In the second one, we highlight the corporate forces and market imperatives involved in the labor of data workers that subsequently shape ML datasets. Finally, we propose expanding current transparency-oriented efforts in dataset documentation to reflect the social contexts of data design and production.
研究动机与目标
- 主张以偏见为中心的框架忽视了 ML 数据生产中的权力动态。
- 倡导用关注权力的视角来研究数据质量、数据工作和数据文档化。
- 突出劳动条件和组织结构如何影响数据集及其结果。
- 呼吁计算机科学、社会学、人类学和经济学之间的跨学科对话,以提升对 ML 数据的研究。
提出的方法
- 批判性分析以偏见为中心的 ML 数据文献,并将其与来自人机交互/协作工作理论的关注权力视角进行对比。
- 用数据工作实践与文档框架的例子来说明权力不对称如何塑造数据集。
- 提出一个三方面议程(数据质量、数据工作、数据文档化)以提升对 ML 数据的研究。
- 借鉴跨学科概念(studying up、heteromation)将数据偏见重新定位为更广泛权力关系的表现。
实验结果
研究问题
- RQ1组织内的权力不对称和劳工实践如何影响 ML 数据生产及数据集?
- RQ2数据集文档化可以如何扩展,以揭示生产背景与超越单纯偏见缓解的权力动态?
- RQ3数据工作者的工作条件与平台治理如何影响数据质量及其产生的 ML 系统?
- RQ4哪些跨学科的方法与协作可以推动对 ML 数据的权力感知研究?
主要发现
- 将偏见作为核心的框架掩盖了数据集内嵌的权力动态与政治性工作。
- 数据工作者的劳动条件和组织结构对数据质量与数据集结果产生了实质性影响。
- 文档框架可以扩展为包含生产背景和权力关系,而不仅仅是数据集组成。
- 关注权力的分析可以揭示为何去偏数据在被强势主体控制时仍可能产生不公正的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。