Skip to main content
QUICK REVIEW

[论文解读] Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

Cosimo Spera|arXiv (Cornell University)|Mar 16, 2026
Ethics and Social Impacts of AI被引用 0
一句话总结

论文证明在能力型 AI 的 AND-语义下安全性是非组合性的,引入定向超图来建模,并提供一个多项式时间的 Safe Audit Surface 来对安全获取进行认证。

ABSTRACT

This paper contains the first formal proof that safety is non-compositional in the presence of conjunctive capability dependencies: two agents each individually inca- pable of reaching any forbidden capability can, when combined, collectively reach a forbidden goal through an emergent conjunctive dependency.

研究动机与目标

  • 以 conjunctive dependencies 为条件,动机并形式化模块化 AI 系统中安全性的非组合性。
  • 引入能力的定向超图模型以捕捉传统图中缺失的 AND-语义。
  • 开发具有可证明正确性和复杂度保证的基于闭包的规划算法。
  • 刻画安全边界、出现的能力以及提供可认证的部署审计工具。
  • 在真实多工具轨迹上对框架进行经验验证,并讨论扩展与未解问题。

提出的方法

  • 将能力建模为定向超图,只有当所有前提条件都存在时,超边才会触发。
  • 证明安全性的非组合性:存在一个最小、紧凑的反例,显示安全集的并集可能不安全(定理 9.2)。
  • 在超图上定义闭包算子,证明规划等价于带有 O(n + m k) 工作表的固定点 Horn 子句计算。
  • 引入目标发现结构(出现的能力、近错前沿、获取距离)并证明闭包增益的子模性,对贪婪算法有 1-1/e 的保证。
  • 建立计算复杂度结果:出现性能力检测是 P-完全的,最小不安全集合成员资格是 coNP-完全的;Safe Audit Surface 定理给出可证的安全映射。
  • 将框架扩展到联盟安全、动态超图和 PAC 学习考虑;并通过真实数据集给出经验验证。

实验结果

研究问题

  • RQ1在具有联合前提条件的情况下,组合多个具能力的代理是否能保证安全?
  • RQ2如何建模能力依赖以捕捉超越传统图的 AND 语义?
  • RQ3有哪些算法可以认证安全的能力获取并提供哪些保证?
  • RQ4在该框架中检测出现能力和不安全集合的计算可行性如何?
  • RQ5模型与现实轨迹的匹配程度如何,需要哪些扩展以适应动态与学习?

主要发现

  • 在联合前提条件下安全性是非组合性的;两个安全代理联合也可能启用一个被禁止的能力(定理 9.2)。
  • 能力超图模型推广了能力图;图可以嵌入为特殊情形,但 AND 语义对于捕捉出现性风险至关重要。
  • 基于闭包的规划简化为带有线性对数成本的固定点计算,复杂度为 O(n + m k)。
  • 出现性能力检测为 P-完全,最小不安全集合成员资格为 coNP-完全,表明离线/在线的可扩展性权衡。
  • Safe Audit Surface 提供一个多项式时间的可认证的安全可获取能力映射、近错机会以及从不可能到达的能力(定理 10.2)。
  • 经验验证表明 真实多工具轨迹中有 42.6% 存在联合依赖关系(95% 置信区间: [39.4%, 45.8%]);超图规划器在所有轨迹上未出现 AND 违反,而工作流基线存在 38.2% 的违规。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。