Skip to main content
QUICK REVIEW

[論文レビュー] Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

Cosimo Spera|arXiv (Cornell University)|Mar 16, 2026
Ethics and Social Impacts of AI被引用数 0
ひとこと要約

この論文は、能力ベースのAIにおける安全性がAND意味論の下で非合成的であることを証明し、モデリングのための有向超グラフを導入し、安全な獲得を認証する多項式時間のSafe Audit Surfaceを提供する。

ABSTRACT

This paper contains the first formal proof that safety is non-compositional in the presence of conjunctive capability dependencies: two agents each individually inca- pable of reaching any forbidden capability can, when combined, collectively reach a forbidden goal through an emergent conjunctive dependency.

研究の動機と目的

  • モジュラーAIシステムの結合依存性における安全性の非合成性を動機づけ、形式化する。
  • 従来のグラフには欠けているAND意味論を捉える能力の有向超グラフモデルを導入する。
  • 証明可能な正確性と計算複雑性保証を持つ閉包ベースの計画アルゴリズムを開発する。
  • 安全性の境界、出現的能力、展開時の監査ツールを特徴づけ、導入の認証可能な監査を提供する。
  • 実データのマルチツール軌跡でフレームワークを実証的に検証し、拡張と未解決問題について議論する。

提案手法

  • 能力を有向超グラフとしてモデル化し、ハイパエッジはすべての前提条件が存在する場合にのみ発火する。
  • 安全性の非合成性を証明する:安全集合の和集合が安全でなくなる最小で厳密な反例を示す(定理9.2)。
  • 超グラフ上の閉包演算子を定義し、計画がO(n + m k)の作業リスト複雑度を持つ不動点ホーン句計算に対応することを証明する。
  • 目標発見構造( emergent capabilities、near-miss frontier、acquisition distance)を導入し、閉包利得の単純化最大化が1-1/eの保証を持つことを証明する。
  • 計算複雑性の結果を確立:出現的能力検出のP完全性と最小安全でない集合の所属のcoNP-完全部分を示し、認証可能な安全マッピングのSafe Audit Surface定理を提示する。
  • 協力安全性、動的超グラフ、PAC学習の考慮へフレームワークを拡張し、実データセットでの実証も提供する。

実験結果

リサーチクエスチョン

  • RQ1複数の能力を持つエージェントを結合して結合条件を満たす場合、安全性を保証できるか。
  • RQ2AND意味論を捉えるために、能力依存関係を従来のグラフを超えてどのようにモデル化するか。
  • RQ3安全な能力獲得を認証するアルゴリズムは何で、どのような保証を提供するか。
  • RQ4このようなフレームワークで出現的能力と安全でない集合の検出の計算的妥当性はどうか。
  • RQ5モデルは現実の軌跡とどの程度整合するか、動的性と学習の拡張には何が必要か。

主な発見

  • 結合依存性の下で安全性は非合成的であり、2つの安全なエージェントを組み合わせると禁止された能力を可能にすることがある(定理9.2)。
  • 能力超グラフモデルは能力グラフを一般化し、グラフは特別なケースとして埋め込まれるが、AND意味論は出現リスクを捉えるために不可欠である。
  • 閉包ベースの計画は線形対数的に近いコストの不動点計算へ還元される。
  • 出現的能力検出はP完全、最小不安全集合の所属はcoNP-完全であり、スケーラビリティのオフライン/オンラインのトレードオフを示す。
  • Safe Audit Surfaceは、安全に獲得可能な能力、ニアミス機会、決して到達不能な能力の多項式時間で認証可能なマップを提供する(定理10.2)。
  • 実証的検証では、実データのマルチツール軌跡の42.6%に結合依存性が含まれる(95%CI: [39.4%, 45.8%])。ハイパーグラフ計画はすべての軌跡でAND違反を0件、ワークフロー系は38.2%の違反。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。