[论文解读] Ethical Considerations for Responsible Data Curation
该论文提出 ante hoc、领域特定的建议,主动策划以人为中心的计算机视觉评估数据集,强调目标、同意/隐私和多样性,以解决隐私和偏见问题。它提供了一个 pre-curation 清单和关于道德数据实践的具体指导。
Human-centric computer vision (HCCV) data curation practices often neglect privacy and bias concerns, leading to dataset retractions and unfair models. HCCV datasets constructed through nonconsensual web scraping lack crucial metadata for comprehensive fairness and robustness evaluations. Current remedies are post hoc, lack persuasive justification for adoption, or fail to provide proper contextualization for appropriate application. Our research focuses on proactive, domain-specific recommendations, covering purpose, privacy and consent, and diversity, for curating HCCV evaluation datasets, addressing privacy and bias concerns. We adopt an ante hoc reflective perspective, drawing from current practices, guidelines, dataset withdrawals, and audits, to inform our considerations and recommendations.
研究动机与目标
- 突出 HCCV 数据集策划中的隐私和偏见挑战,以及对主动、领域特定的指导的需求。
- 制定涵盖目的、同意/隐私和多样性的 HCCV 数据集的 ante hoc 道德考量。
- 提供实用建议和一个 pre-curation 清单,以指导道德数据集构建与文档化。
提出的方法
- 综合当前做法、准则、撤回和审计的见解,以制定道德考量。
- 将建议围绕三大支柱来框架:目的、同意与隐私,以及多样性。
- 提出具体的 pre-curation 问题和一个清单(Appendix A)以使负责任的数据策划落地。
- 倡导早期、领域特定、并且情境感知的数据设计实践,而不是事后补救。
实验结果
研究问题
- RQ1在数据收集前,如何通过目的声明来指导 HCCV 数据集策划,以防止偏见和隐私伤害?
- RQ2为了公平性和鲁棒性评估,伦理地收集和使用 HCCV 数据需要哪些同意和隐私实践?
- RQ3在 HCCV 数据集中应如何定义和实现多样性,以减轻表征性和历史偏见?
- RQ4哪些实际机制(例如,同意撤回、居住国家收集、涂改)可以纳入前期策划流程以提升伦理?
- RQ5当前事后方法的局限性是什么, ante hoc 指导如何改善公平性和鲁棒性?
主要发现
- 当前的 HCCV 数据做法常常忽视隐私和偏见,导致伤害和数据集撤回。
- 偏见感知的数据集稀缺,且常与 HCCV 应用任务错位,增加偏见评估的复杂性。
- 以目的、同意/隐私和多样性为核心的主动性建议可以从一开始就引导道德、鲁棒的数据策划。
- 提供了一个 pre-curation 清单,将道德考量转化为对策策者可执行的问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。