Skip to main content
QUICK REVIEW

[论文解读] Confidence-Building Measures for Artificial Intelligence: Workshop Proceedings

Sarah Shoker, Andrew W. Reddie|arXiv (Cornell University)|Aug 1, 2023
Scientific Computing and Data Management被引用 13
一句话总结

本研讨会确定了切实可行的信心建设措施,以减轻基础模型带来的安全风险,强调多方利益相关者参与以及灵活、非约束性行动。

ABSTRACT

Foundation models could eventually introduce several pathways for undermining state security: accidents, inadvertent escalation, unintentional conflict, the proliferation of weapons, and the interference with human diplomacy are just a few on a long list. The Confidence-Building Measures for Artificial Intelligence workshop hosted by the Geopolitics Team at OpenAI and the Berkeley Risk and Security Lab at the University of California brought together a multistakeholder group to think through the tools and strategies to mitigate the potential risks introduced by foundation models to international security. Originating in the Cold War, confidence-building measures (CBMs) are actions that reduce hostility, prevent conflict escalation, and improve trust between parties. The flexibility of CBMs make them a key instrument for navigating the rapid changes in the foundation model landscape. Participants identified the following CBMs that directly apply to foundation models and which are further explained in this conference proceedings: 1. crisis hotlines 2. incident sharing 3. model, transparency, and system cards 4. content provenance and watermarks 5. collaborative red teaming and table-top exercises and 6. dataset and evaluation sharing. Because most foundation model developers are non-government entities, many CBMs will need to involve a wider stakeholder community. These measures can be implemented either by AI labs or by relevant government actors.

研究动机与目标

  • 在基础模型时代推动对信心建设措施(CBMs)的需求,以防止误解和升级。
  • 确定一组适用于各类参与方(实验室、政府、民间社会)的可执行CBMs。
  • 解释CBMs如何在正式监管并行运作,以应对快速的AI创新。
  • 突出可能影响CBM成效与采纳的政治和技术局限性。
  • 提出将CBMs整合到现有AI治理框架中的路径。

提出的方法

  • 识别适用于基础模型的CBMs,包括危机热线、事件共享、模型/系统卡、内容溯源与水印、协作红队演练、桌面演练,以及数据/评估共享。
  • 将CBMs分为四类:沟通与协调、观察与验证、合作与整合,以及透明度。
  • 讨论非政府参与者和多方参与在实施CBMs中的作用。
  • 提供来自历史与当代国际安全背景的实例与考量。
  • 评估局限性以及持续红队演练与治理对齐的需要。

实验结果

研究问题

  • RQ1哪些CBMs最适用于降低基础模型带来的国际安全风险?
  • RQ2考虑到许多AI开发者是非政府主体且需要多方参与,CBMs如何实施?
  • RQ3影响CBMs在AI领域可行性和有效性的政治与技术局限性有哪些?
  • RQ4CBMs如何与现有的国际监管讨论和框架互补?

主要发现

  • 被认定适用于基础模型的CBMs包括危机热线、事件共享、模型/透明度/系统卡、内容溯源与水印、协作红队演练、桌面演练,以及数据集/评估共享。
  • CBMs被分为沟通/协调、观察/验证、合作/整合,以及透明度四类,旨在减少误解和升级。
  • 许多CBMs是自愿性的,可以由AI实验室或政府机构实施,由于许多开发者是非政府主体,可能涉及多方参与。
  • CBMs存在政治与技术局限性,如验证挑战、激励对齐,以及AI能力的不断发展需要灵活、边建边用的方法。
  • 提出的CBMs可以起到补充作用但不能取代正式监管努力,且在低信任的国际环境中可能起到桥梁作用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。