[論文レビュー] Sola-Visibility-ISPM: Benchmarking Agentic AI for Identity Security Posture Management Visibility
Sola Visibility ISPM Benchmarkを導入し、AWS、Okta、Google Workspace にわたる実務レベルの ISPM 課題でエージェント型AIを評価。Sola AI Agent はデータに基づくクエリを実行し、検証可能で裏付けのある回答を作成します。
Identity Security Posture Management (ISPM) is a core challenge for modern enterprises operating across cloud and SaaS environments. Answering basic ISPM visibility questions, such as understanding identity inventory and configuration hygiene, requires interpreting complex identity data, motivating growing interest in agentic AI systems. Despite this interest, there is currently no standardized way to evaluate how well such systems perform ISPM visibility tasks on real enterprise data. We introduce the Sola Visibility ISPM Benchmark, the first benchmark designed to evaluate agentic AI systems on foundational ISPM visibility tasks using a live, production-grade identity environment spanning AWS, Okta, and Google Workspace. The benchmark focuses on identity inventory and hygiene questions and is accompanied by the Sola AI Agent, a tool-using agent that translates natural-language queries into executable data exploration steps and produces verifiable, evidence-backed answers. Across 77 benchmark questions, the agent achieves strong overall performance, with an expert accuracy of 0.84 and a strict success rate of 0.77. Performance is highest on AWS hygiene tasks, where expert accuracy reaches 0.94, while results on Google Workspace and Okta hygiene tasks are more moderate, yet competitive. Overall, this work provides a practical and reproducible benchmark for evaluating agentic AI systems in identity security and establishes a foundation for future ISPM benchmarks covering more advanced identity analysis and governance tasks.
研究の動機と目的
- 実企業の IAM、IdP、SaaS データソースを横断して ISPM 可視性ベンチマークを定義・運用化する。
- ISPM クエリ用のツール使用型・データ根拠型アシスタントとして Sola AI Agent を導入する。
- ライブデータと構造化された裏付けアーティファクトを用いた再現性の高い評価フレームワークを提供する。
- 複数プラットフォームにまたがる 77 のデータ根拠型 ISPM 質問でエージェント型AIの性能を定量化する。
- ガバナンスと高度なアイデンティティ分析を含む、より広範な ISPM ベンチマークの基盤を提供する。
提案手法
- ベンチマークを実企業の三者:AWS、Okta、Google Workspace に基づかせる。
- ベストプラクティスのアイデンティティセキュリティルールをデータ境界付き ISPM 質問へ翻訳する。
- Sola AI Agent を用い、ファストパスとフルパス実行モードの両方で質問に回答させる。
- エンドツーエンドのトレース、裏付けバンドル、専門家/LLMベースの判断で評価する。
- 正確性、成功率、推論品質などの多面的指標で結果を提示する。

実験結果
リサーチクエスチョン
- RQ1エージェント型AIは、実企業のアイデンティティデータからの ISPM 可視性質問をどれだけ正確に解釈・回答できるか?
- RQ2ファストパスとフルパス推論の強みと制限は ISPM タスクでどのように異なるか?
- RQ3AWS、Google Workspace、Okta の衛生( hygiene )と在庫(Inventory)質問のパフォーマンスにはどのような差があるか?
- RQ4例の適応とスキーマ基づけが正確性と grounding にどの程度影響するか?
- RQ5ベンチマークは将来の ISPM タスクに対して再現性のある裏付けつき評価を提供できるか?
主な発見
- エージェントは 77 問で全体的な専門家レベルの正確さ 0.84、厳密な成功率 0.77 を達成。
- AWS の衛生タスクは最高の専門家正確さ 0.95 および成功率 0.90 を識別。
- Okta の衛生は専門家正確さ 0.65、成功率 0.50 で中程度のパフォーマンス。
- Google Workspace の衛生は専門家正確さ 0.75、成功率 0.71。
- ファストパス推論は全体的に高いパフォーマンスを示し、特に AWS と在庫領域での合意が高いが、領域間でより変動。
- フルパス推論は領域を跨いでより一貫した正確さを提供し、特に複雑な衛生タスクで顕著。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。