[论文解读] Lessons from Archives: Strategies for Collecting Sociocultural Data in Machine Learning
该论文主张通过将档案实践引入社会文化数据,形成 ML 数据收集专业化,强调同意、包容性、权力、透明度,以及伦理与隐私,并采用干预性收集与制度结构。
A growing body of work shows that many problems in fairness, accountability, transparency, and ethics in machine learning systems are rooted in decisions surrounding the data collection and annotation process. In spite of its fundamental nature however, data collection remains an overlooked part of the machine learning (ML) pipeline. In this paper, we argue that a new specialization should be formed within ML that is focused on methodologies for data collection and annotation: efforts that require institutional frameworks and procedures. Specifically for sociocultural data, parallels can be drawn from archives and libraries. Archives are the longest standing communal effort to gather human information and archive scholars have already developed the language and procedures to address and discuss many challenges pertaining to data collection such as consent, power, inclusivity, transparency, and ethics & privacy. We discuss these five key approaches in document collection practices in archives that can inform data collection in sociocultural ML. By showing data collection practices from another field, we encourage ML research to be more cognizant and systematic in data collection and draw from interdisciplinary expertise.
研究动机与目标
- 促使将数据收集视为 ML 的一个基本关注点,并具有社会影响的必要性。
- 提出借鉴档案学与图书馆学的经验教训,以改进 ML 数据收集与标注实践。
- 确定用于引导数据收集的制度和程序性结构(使命宣言、伦理准则、文档记录)。
- 倡导干预性数据收集,以缓解历史与表征偏差。
- 提出具体机制(数据联盟、社区档案、参与式方法)以在 ML 中落实现这些做法。
提出的方法
- 比较档案数据收集实践与 ML 数据收集实践,以识别差距与机会。
- 主张干预性数据收集以解决数据中的历史与表征偏差。
- 将档案学概念(使命宣言、文档标准、评估流程)映射到 ML 数据治理(Datasheets for Datasets、透明度努力)。
- 提出组织模型(数据联盟、社区档案、参与式档案)以实现数据收集的民主化并共享资源。
- 提供在 ML 数据集与流程中实施同意、包容性、权力、透明度与伦理的指南。
实验结果
研究问题
- RQ1档案数据收集实践如何为机器学习中的数据治理提供借鉴?
- RQ2哪些干预性的数据收集策略可以减少 ML 数据集中的历史与表征偏差?
- RQ3ML 项目如何实现类似档案的使命宣言、文档记录与伦理监管?
- RQ4在 ML 中为负责任的社会文化数据收集可行的组织结构有哪些(数据联盟、社区档案、行为准则)?
主要发现
- Archives 使用使命宣言来定义数据收集目标并促进包容性。
- Archives 依赖多层次监督与有据可查的评估来规范数据收集,这可以为 ML 的透明度提供启示。
- 社区/参与式档案使被代表性不足的群体能够定义自己的表征与数据访问协议。
- 数据联盟和共享框架可以解决 ML 数据收集中的成本、劳动力和公平性挑战。
- 档案中的伦理与隐私通过行为准则和有据可查的程序来执行,为 ML 治理与合规提供范本。
- 干预性数据收集有助于在机器学习建模之前缓解历史与表征偏差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。