QUICK REVIEW

[论文解读] Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

Cosimo Spera|arXiv (Cornell University)|Mar 16, 2026

Ethics and Social Impacts of AI被引用 0

一句话总结

论文证明在能力型 AI 的 AND-语义下安全性是非组合性的，引入定向超图来建模，并提供一个多项式时间的 Safe Audit Surface 来对安全获取进行认证。

ABSTRACT

This paper contains the first formal proof that safety is non-compositional in the presence of conjunctive capability dependencies: two agents each individually inca- pable of reaching any forbidden capability can, when combined, collectively reach a forbidden goal through an emergent conjunctive dependency.

研究动机与目标

以 conjunctive dependencies 为条件，动机并形式化模块化 AI 系统中安全性的非组合性。
引入能力的定向超图模型以捕捉传统图中缺失的 AND-语义。
开发具有可证明正确性和复杂度保证的基于闭包的规划算法。
刻画安全边界、出现的能力以及提供可认证的部署审计工具。
在真实多工具轨迹上对框架进行经验验证，并讨论扩展与未解问题。

提出的方法

将能力建模为定向超图，只有当所有前提条件都存在时，超边才会触发。
证明安全性的非组合性：存在一个最小、紧凑的反例，显示安全集的并集可能不安全（定理 9.2）。
在超图上定义闭包算子，证明规划等价于带有 O(n + m k) 工作表的固定点 Horn 子句计算。
引入目标发现结构（出现的能力、近错前沿、获取距离）并证明闭包增益的子模性，对贪婪算法有 1-1/e 的保证。
建立计算复杂度结果：出现性能力检测是 P-完全的，最小不安全集合成员资格是 coNP-完全的；Safe Audit Surface 定理给出可证的安全映射。
将框架扩展到联盟安全、动态超图和 PAC 学习考虑；并通过真实数据集给出经验验证。

实验结果

研究问题

RQ1在具有联合前提条件的情况下，组合多个具能力的代理是否能保证安全？
RQ2如何建模能力依赖以捕捉超越传统图的 AND 语义？
RQ3有哪些算法可以认证安全的能力获取并提供哪些保证？
RQ4在该框架中检测出现能力和不安全集合的计算可行性如何？
RQ5模型与现实轨迹的匹配程度如何，需要哪些扩展以适应动态与学习？

主要发现

在联合前提条件下安全性是非组合性的；两个安全代理联合也可能启用一个被禁止的能力（定理 9.2）。
能力超图模型推广了能力图；图可以嵌入为特殊情形，但 AND 语义对于捕捉出现性风险至关重要。
基于闭包的规划简化为带有线性对数成本的固定点计算，复杂度为 O(n + m k)。
出现性能力检测为 P-完全，最小不安全集合成员资格为 coNP-完全，表明离线/在线的可扩展性权衡。
Safe Audit Surface 提供一个多项式时间的可认证的安全可获取能力映射、近错机会以及从不可能到达的能力（定理 10.2）。
经验验证表明真实多工具轨迹中有 42.6% 存在联合依赖关系（95% 置信区间： [39.4%, 45.8%]）；超图规划器在所有轨迹上未出现 AND 违反，而工作流基线存在 38.2% 的违规。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。