[论文解读] Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims
该报告主张建立一套制度、软件和硬件机制的工具箱,用以生成关于AI development的可验证主张,旨在提升开发者、监管机构和社会之间的问责性与信任。
With the recent wave of progress in artificial intelligence (AI) has come a growing awareness of the large-scale impacts of AI systems, and recognition that existing regulations and norms in industry and academia are insufficient to ensure responsible AI development. In order for AI developers to earn trust from system users, customers, civil society, governments, and other stakeholders that they are building AI responsibly, they will need to make verifiable claims to which they can be held accountable. Those outside of a given organization also need effective means of scrutinizing such claims. This report suggests various steps that different stakeholders can take to improve the verifiability of claims made about AI systems and their associated development processes, with a focus on providing evidence about the safety, security, fairness, and privacy protection of AI systems. We analyze ten mechanisms for this purpose--spanning institutions, software, and hardware--and make recommendations aimed at implementing, exploring, or improving those mechanisms.
研究动机与目标
- 推动从伦理原则转向关于 AI development 的可验证主张。
- 定义可验证主张,并确定哪些证据类型可以支持它们。
- 提出横跨制度、软件和硬件的全面机制工具箱。
- 提供可操作的建议,以实施并扩大这些机制。
提出的方法
- 将机制组织为三个相互交织的支柱:制度、软件和硬件。
- 调查并讨论如第三方审计、红队演练、偏见与安全赏金,以及 AI 事件的分享(制度层面)等机制。
- 将审计跟踪、可解释性和隐私保护的 ML 作为核心软件机制(并附带证据路径)。
- 强调安全硬件、高精度计算度量,以及对学术界的计算支持作为硬件机制(并具备验证含义)。
- 提供具体建议并概述构成工具箱的工作坊过程(附录 I)。
实验结果
研究问题
- RQ1哪些机制可以增强关于 AI development 的可验证性?
- RQ2如何设计和协调制度、软件和硬件机制,以便让各类相关方进行验证?
- RQ3实施第三方审计、红队演练以及用于发现安全性与偏见的激励结构,需要哪些具体步骤(以及哪些合作)?
- RQ4审计跟踪、可解释性和隐私保护的 ML 如何支撑关于 AI 系统的安全、保密和隐私的主张?
- RQ5硬件安全特征和计算透明性在支持可验证主张中的作用是什么?
主要发现
- 多样化的机制工具箱可以提高 AI development 的可验证性,并降低伦理洗白的风险。
- 制度性机制塑造激励、透明度和信息共享,以支持可验证的主张。
- 软件机制通过审计跟踪、可解释性和隐私保护的 ML,为系统属性提供证据。
- 硬件机制通过安全硬件、精确的计算度量以及对验证的研究支持,提供更高的保障。
- 产业、学术界和政府之间的协作——一个多方参与的生态系统——对于扩大这些机制的规模至关重要。
- 该报告强调可操作的建议,以及从原则到关于 AI development 的可验证、可测试主张的路径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。