QUICK REVIEW

[論文レビュー] Formal Analysis and Supply Chain Security for Agentic AI Skills

Varun Pratap Bhardwaj|arXiv (Cornell University)|Feb 27, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

SkillFortifyはエージェントのスキル供給連鎖の最初の正式分析フレームワークであり、DY-Skill 攻撃者、健全な静的分析、能力ベースのサンドボックス化、SATベースの依存解決、信頼スコア代数、540スキルのベンチマークと強力な経験的結果を導入します。

ABSTRACT

The rapid proliferation of agentic AI skill ecosystems -- exemplified by OpenClaw (228,000 GitHub stars) and Anthropic Agent Skills (75,600 stars) -- has introduced a critical supply chain attack surface. The ClawHavoc campaign (January-February 2026) infiltrated over 1,200 malicious skills into the OpenClaw marketplace, while MalTool catalogued 6,487 malicious tools that evade conventional detection. In response, twelve reactive security tools emerged, yet all rely on heuristic methods that provide no formal guarantees. We present SkillFortify, the first formal analysis framework for agent skill supply chains, with six contributions: (1) the DY-Skill attacker model, a Dolev-Yao adaptation to the five-phase skill lifecycle with a maximality proof; (2) a sound static analysis framework grounded in abstract interpretation; (3) capability-based sandboxing with a confinement proof; (4) an Agent Dependency Graph with SAT-based resolution and lockfile semantics; (5) a trust score algebra with formal monotonicity; and (6) SkillFortifyBench, a 540-skill benchmark. SkillFortify achieves 96.95% F1 (95% CI: [95.1%, 98.4%]) with 100% precision and 0% false positive rate on 540 skills, while SAT-based resolution handles 1,000-node graphs in under 100 ms.

研究の動機と目的

エージェントのスキル供給連鎖における正式保証の必要性を、攻撃の増加と未知の悪意あるスキルの検出不足を理由として動機づける。
正式なフレームワーク（SkillFortify）を導入し、エージェントのスキルの安全性を保証する健全な分析と証明を提供する。
要素を開発・証明する：攻撃者モデル、静的分析、サンドボックス化、SAT解決を含む依存グラフ、信頼スコア、ベンチマーキング。

提案手法

DY-Skill攻撃者モデルを定義する。これは五段階のスキルライフサイクルのDolev–Yao適用で、最大性証明を含む。
4要素の能力格子を用いた抽象解釈に基づく健全な静的分析フレームワークを開発する。
拘束証明を伴う能力ベースのサンドボックス化を形式化する。
Agent Dependency Graphを構築し、解決をロックファイルセマンティクスを用いたSAT問題としてエンコードする。
正式な伝搬と単調性を持つ信頼スコア代数を導入する。
SkillFortifyBenchを作成し、検出と解決の性能を評価する540スキルのベンチマークを作成する。

実験結果

リサーチクエスチョン

RQ1サプライチェーン文脈におけるエージェントのスキル安全性に対して正式な保証をどのように提供できるか？
RQ2正式なフレームワークはスキルによる不正なリソースアクセスの不在を証明できるか？
RQ3大規模なスキルグラフに対するSATベースの依存解決の性能特性は？
RQ4信頼スコアを出所と保守を反映しつつスキル依存関係に正式に伝搬させる方法は？
RQ5実世界の悪意あるスキルと無害なスキルのベンチマークはフレームワークの有効性を検証するか？

主な発見

SkillFortifyはSkillFortifyBenchで95.1%～98.4%の信頼区間を持つ96.95%のF1スコアを達成。
SkillFortifyは540スキルで100%の精度と0%の偽陽性を達成。
SATベースの解決は1,000ノードのグラフを100 ms未満で処理。
540スキルのSkillFortifyBenchは、実際のキャンペーンおよびキュレーションソースから得られた270件の悪意あるスキルと270件の無害なスキルを含む。
このフレームワークは、健全な静的分析、拘束、ロックファイルベースの解決の正しさを含む正式な保証を提供する。
経験的評価は、パターンマッチングと情報フロー分析の補完性を、単なるヒューリスティック防御よりも示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。