[论文解读] Closing the AI Knowledge Gap
该论文提出了TuringBox,一个双向市场平台,通过系统性、以假设为驱动的科学研究方法来弥合人工智能知识鸿沟。该平台连接了上传算法的人工智能贡献者与设计并运行行为测试的检验者,促进了可复现性、偏见测量以及人工智能行为的跨学科研究。
AI researchers employ not only the scientific method, but also methodology from mathematics and engineering. However, the use of the scientific method - specifically hypothesis testing - in AI is typically conducted in service of engineering objectives. Growing interest in topics such as fairness and algorithmic bias show that engineering-focused questions only comprise a subset of the important questions about AI systems. This results in the AI Knowledge Gap: the number of unique AI systems grows faster than the number of studies that characterize these systems' behavior. To close this gap, we argue that the study of AI could benefit from the greater inclusion of researchers who are well positioned to formulate and test hypotheses about the behavior of AI systems. We examine the barriers preventing social and behavioral scientists from conducting such studies. Our diagnosis suggests that accelerating the scientific study of AI systems requires new incentives for academia and industry, mediated by new tools and institutions. To address these needs, we propose a two-sided marketplace called TuringBox. On one side, AI contributors upload existing and novel algorithms to be studied scientifically by others. On the other side, AI examiners develop and post machine intelligence tasks designed to evaluate and characterize algorithmic behavior. We discuss this market's potential to democratize the scientific study of AI behavior, and thus narrow the AI Knowledge Gap.
研究动机与目标
- 解决日益扩大的人工智能知识鸿沟问题,即人工智能系统的数量已超过对其行为的科学理解。
- 克服社会与行为科学家因缺乏访问权限、工具和激励机制而难以研究人工智能系统的问题。
- 创建一个可扩展、标准化的平台,以支持对多样化人工智能系统的行为进行假设检验。
- 促进计算机科学家与社会科学家之间的合作,研究人工智能中的公平性、偏见及涌现行为。
- 通过使研究人员和机构能够系统性地测试和基准化算法,实现人工智能系统评估的民主化。
提出的方法
- 设计一个双向市场平台:一侧供人工智能贡献者上传算法,另一侧供检验者发布机器智能任务。
- 通过要求算法设计者上传其自身实现,确保可复现性,减少实现差异。
- 集成基准测试工具,使贡献者能够将其性能与最先进系统进行比较。
- 使社会科学家能够定义并部署新的行为度量标准——如公平性和偏见——以跨多个AI系统进行评估。
- 通过API支持学术界和工业界的参与,使专有系统能够接受合规性和透明度测试。
- 建立制度化和激励机制,鼓励学术界和工业界持续参与人工智能的科学评估。
实验结果
研究问题
- RQ1如何使人工智能系统科学研究所能跟上新人工智能系统快速涌现的步伐?
- RQ2哪些制度性和技术性障碍阻碍了社会与行为科学家有效研究人工智能行为?
- RQ3市场模式在多大程度上能促进对多样化人工智能系统的行为假设检验与特征刻画?
- RQ4标准化、可复现的评估协议在多大程度上能提升人工智能系统中偏见的检测与测量?
- RQ5统一的人工智能评估平台如何弥合计算机科学与社会科学研究人工智能之间的差距?
主要发现
- 人工智能知识鸿沟的产生,是因为独特人工智能系统的数量增长速度超过了对其行为进行表征的科学研究数量。
- 当前的人工智能研究主要由工程学和数学方法主导,导致关于公平性、偏见和社会影响的关键问题尚未得到充分研究。
- TuringBox通过集中化算法访问和标准化评估协议,实现了对人工智能行为的大规模、可复现的科学研究。
- 通过让社会科学家担任检验者,该平台支持在多样化人工智能系统中开发新的行为度量标准,如公平性和偏见检测。
- 市场模式减少了对临时数据收集和审计的依赖,为昂贵的一次性算法审计提供了一种可扩展的替代方案。
- 该平台有潜力以受控、系统化的方式,提前预见并研究未来通用人工智能系统可能出现的复杂、跨领域行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。