QUICK REVIEW

[논문 리뷰] Sola-Visibility-ISPM: Benchmarking Agentic AI for Identity Security Posture Management Visibility

Gal Engelberg, Konstantin Koutsyi|arXiv (Cornell University)|2026. 01. 11.

Software System Performance and Reliability인용 수 0

한 줄 요약

설명은 Sola Visibility ISPM 벤치마크를 도입해 AWS, Okta, Google Workspace 전반의 실제 생산 등급 ISPM 작업에서 에이전트 AI를 평가하고, Sola AI 에이전트가 데이터 기반 쿼리를 수행하고 증거에 뒷받침되는 검증 가능한 답을 제공한다.

ABSTRACT

Identity Security Posture Management (ISPM) is a core challenge for modern enterprises operating across cloud and SaaS environments. Answering basic ISPM visibility questions, such as understanding identity inventory and configuration hygiene, requires interpreting complex identity data, motivating growing interest in agentic AI systems. Despite this interest, there is currently no standardized way to evaluate how well such systems perform ISPM visibility tasks on real enterprise data. We introduce the Sola Visibility ISPM Benchmark, the first benchmark designed to evaluate agentic AI systems on foundational ISPM visibility tasks using a live, production-grade identity environment spanning AWS, Okta, and Google Workspace. The benchmark focuses on identity inventory and hygiene questions and is accompanied by the Sola AI Agent, a tool-using agent that translates natural-language queries into executable data exploration steps and produces verifiable, evidence-backed answers. Across 77 benchmark questions, the agent achieves strong overall performance, with an expert accuracy of 0.84 and a strict success rate of 0.77. Performance is highest on AWS hygiene tasks, where expert accuracy reaches 0.94, while results on Google Workspace and Okta hygiene tasks are more moderate, yet competitive. Overall, this work provides a practical and reproducible benchmark for evaluating agentic AI systems in identity security and establishes a foundation for future ISPM benchmarks covering more advanced identity analysis and governance tasks.

연구 동기 및 목표

실제 엔터프라이즈 IAM, IdP 및 SaaS 데이터 소스 전반에서 ISPM 가시성 벤치마킹을 정의하고 운영화한다.
ISPM 질의에 대해 도구를 활용하고 데이터 기반의 보조 역할을 하는 Sola AI 에이전트를 도입한다.
실시간 데이터와 구조화된 증거 산출물을 갖춘 재현 가능한 평가 프레임워크를 제공한다.
여러 플랫폼에 걸쳐 77개의 데이터 기반 ISPM 질의에 대한 에이전트 AI 성능을 정량화한다.
거버넌스 및 고급 신원 분석을 포함하는 더 넓은 ISPM 벤치마킹의 기반을 제공한다

제안 방법

벤치마크를 실제 엔터프라이즈 트리오인 AWS, Okta, Google Workspace에 기반한다.
최고 관행 신원 보안 규칙을 데이터 경계의 ISPM 질의로 번역한다.
질의를 응답하기 위해 빠른 경로와 전체 경로 실행 모드를 가진 Sola AI 에이전을 사용한다.
종단 간 추적, 증거 묶음, 전문가/LLM 기반 판단으로 평가한다.
정확도, 성공률, 추론 품질 등 다면적 지표로 결과를 제시한다.

Figure 1: SOLA AI Agent Conceptual Architecture

실험 결과

연구 질문

RQ1에이전트 AI가 실제 엔터프라이즈 ID 데이터에서 ISPM 가시성 질문을 얼마나 잘 해석하고 답할 수 있는가?
RQ2ISPM 작업에서 빠른 경로와 전체 경로 추론의 강점과 한계는 무엇인가?
RQ3위생(hygiene) 및 자산 목록(inventory) 관련 질문 측면에서 AWS, Google Workspace, Okta 간 성능 차이는 어떤가?
RQ4예시 적응과 스키마 기반화가 정확성과 근거에 어느 정도 영향을 미치는가?
RQ5벤치마크가 향후 ISPM 작업에 대해 재현 가능하고 증거에 기반한 평가를 제공할 수 있는가?

주요 결과

에이전트는 77개 질문 전체에서 총체적 전문가 정확도 0.84 및 엄격한 성공률 0.77을 달성한다.
AWS 위생 작업이 최다 전문가 정확도(0.95)와 성공률(0.90)을 얻는다.
Okta 위생은 전문가 정확도 0.65, 성공률 0.50으로 중간 수준의 성능을 보인다.
Google Workspace 위생은 전문가 정확도 0.75, 성공률 0.71을 달성한다.
빠른 경로 추론은 AWS 및 Inventory 도메인에서 더 높은 일치를 보이며 전반적으로 강한 성능을 나타내지만 도메인 간 결과는 더 다양하다.
전체 경로 추론은 도메인 전반에서 더 일관된 정확성을 제공하며 특히 복잡한 위생 작업에 유용하다.

Figure 2: Sola ISPM Visibility Evaluation Framework

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.