QUICK REVIEW

[论文解读] Generative AI and the Digital Commons

Saffron Huang, Divya Siddarth|arXiv (Cornell University)|Mar 20, 2023

Scientific Computing and Data Management被引用 21

一句话总结

本文分析了 Generative Foundation Models (GFMs) 如何依赖数字共同体，并提出治理、数据共享和资助方法，以保护和维持共同体，同时降低风险。它强调联盟、数据贡献规范和输入数据治理，以使 GFM 的开发与公共利益保持一致。

ABSTRACT

Many generative foundation models (or GFMs) are trained on publicly available data and use public infrastructure, but 1) may degrade the "digital commons" that they depend on, and 2) do not have processes in place to return value captured to data producers and stakeholders. Existing conceptions of data rights and protection (focusing largely on individually-owned data and associated privacy concerns) and copyright or licensing-based models offer some instructive priors, but are ill-suited for the issues that may arise from models trained on commons-based data. We outline the risks posed by GFMs and why they are relevant to the digital commons, and propose numerous governance-based solutions that include investments in standardized dataset/model disclosure and other kinds of transparency when it comes to generative models' training and capabilities, consortia-based funding for monitoring/standards/auditing organizations, requirements or norms for GFM companies to contribute high quality data to the commons, and structures for shared ownership based on individual or community provision of fine-tuning data.

研究动机与目标

评估 GFMs 如何与数字共同体互动并对数字共同体产生影响
确定 GFMs 对数字共同体和民主构成的风险
提出治理结构，包括联盟和数据贡献规范，以维持共同体
提出资助和共享所有权的模型，奖励数据生产者和贡献者
概述监测、审计和标准化 GFM 实践的切实路径

提出的方法

界定 GFMs 并映射它们对数字共同体基础设施和数据源的依赖
分析对数字共同体的风险，包括信息质量、民主和劳动动态
提出治理机制，如联盟、数据贡献规范和输入数据治理
评估诸如数据分红、版权/许可和个人数据权利等政策选项的利弊
建议监测、审计和制定标准机构的实施策略

实验结果

研究问题

RQ1GFMs 如何依赖并可能削弱数字共同体？
RQ2哪些治理模型可以在促进负责任的 GFM 发展同时降低对共同体的风险？
RQ3联盟、基于规范的数据贡献和输入数据治理的比较优势与缺点是什么？
RQ4在以共同体为中心的框架内，如何奖励或补偿数据生产者？
RQ5在实践中，监测和审计 GFMs 的结构有哪些可行选项？

主要发现

GFMs 通过快速生成和部署 AI 输出，既依赖又可能侵蚀数字共同体。
关于数据生产者和共同体的赔偿问题的未解之问凸显治理缺口和潜在的货币化冲突。
监测、审计和制定标准的联盟可以协调多方利益相关者的意见以管理风险。
GFM 公司向共同体贡献高质量数据的规范可以提高数据完整性和治理。
基于用于模型训练的输入数据的治理结构可以在数据提供者、研究人员和用户之间对齐激励。
本文讨论了多种政策选项（数据分红/税收、更严格的版权、个人数据权利）具有不同的可行性和权衡，强调需要基础设施和治理来监测效果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。