QUICK REVIEW

[논문 리뷰] The AI Agent Index

Stephen Casper, Luke Bailey|ArXiv.org|2025. 02. 03.

Computability, Logic, AI Algorithms인용 수 3

한 줄 요약

배치된 에이전트 AI 시스템을 문서화하는 최초의 공개 데이터베이스인 AI Agent Index를 소개하고, 구성요소, 활용, 안전 관행을 공개 소스와 개발자 서신에 기반하여 상세히 설명합니다.

ABSTRACT

Leading AI developers and startups are increasingly deploying agentic AI systems that can plan and execute complex tasks with limited human involvement. However, there is currently no structured framework for documenting the technical components, intended uses, and safety features of agentic systems. To fill this gap, we introduce the AI Agent Index, the first public database to document information about currently deployed agentic AI systems. For each system that meets the criteria for inclusion in the index, we document the system's components (e.g., base model, reasoning implementation, tool use), application domains (e.g., computer use, software engineering), and risk management practices (e.g., evaluation results, guardrails), based on publicly available information and correspondence with developers. We find that while developers generally provide ample information regarding the capabilities and applications of agentic systems, they currently provide limited information regarding safety and risk management practices. The AI Agent Index is available online at https://aiagentindex.mit.edu/

연구 동기 및 목표

에이전트형 AI 시스템의 기술적, 안전성 및 정책 관련 특징을 문서화하기 위한 구조화된 프레임워크를 제공한다.
포함 기준을 충족하는 현재 배치된 에이전트형 시스템을 식별하고 프레임워크를 사용하여 공개적으로 문서화한다.
에이전트형 AI 생태계의 지리적 분포, 산업 vs 학계, 개방성, 위험 관리의 고수준 추세를 분석하고 보고한다.

제안 방법

Chan et al., 2023에 따라 불충분한 명세성(underspecification), 영향의 직접성, 목표 지향성 및 장기 계획을 기준으로 포함 기준을 정의한다.
공개 소스 및 개발자 서신으로부터 2024년 12월 31일 현재 배치된 에이전트형 시스템 샘플(n = 67)을 수집한다.
6개 범주(기본 정보, 개발자, 시스템 구성요소, 가드레일, 평가, 생태계)에 걸쳐 33필드의 에이전트 카드를 수집한다.
코드와 문서의 개방성은 기록되고, 가용한 경우 안전 정책 및 외부 평가가 수록된다.
인구통계(국가, 학계 대 산업) 및 도메인 분포를 분석하고 한계 및 거버넌스 시사점을 논의한다.

Figure 1: Most AI agent developers in the index provide some public documentation (70.1%), while about half (49.3%) release their underlying code.

실험 결과

연구 질문

RQ1어떤 조직이 에이전트형 시스템을 개발하고 그것들이 어떤 도메인에 배포되어 있는가?
RQ2에이전트형 시스템은 어떤 기반 인프라를 필요로 하며 성능과 안전성은 어떻게 평가되는가?
RQ3공개적으로 공개된 가드레일, 안전 정책 및 위험 관리 관행은 무엇인가?
RQ4코드, 문서, 안전 정보 측면에서 에이전트형 시스템은 얼마나 개방되어 있는가?
RQ5지표에서 관찰된 패턴으로부터 어떤 거버넌스 시사점이 도출되는가?

주요 결과

67개의 agentic 시스템이 색인화되었으며 배치는 2023년까지 거슬러 올라가고 2024년까지 배치 속도가 증가했다.
67개 중 45개(45/67)가 미국 기반 개발자에 의해 개발되었으며; 대다수는 산업 주도(49/67)이고 학계(18/67)는 소수이다.
67개 중 50개(74.6%)가 소프트웨어 엔지니어링 또는 컴퓨터 사용에 특화되어 있다; 다수는 고객 서비스 지향이지만 모두 포함 기준을 충족하지는 않는다.
33개의 에이전트(49.3%)가 코드를 공개하고, 47개 에이전트(70.1%)가 문서를 공개한다.
안전 정책 및 평가에 대한 공개 정보는 제한적이다: 19.4%(13/67) 가 안전 정책을 공개하고; 7.5%(5/67) 가 외부 안전 평가를 보고하며; 9%(6/67) 가 공개적으로 이용 가능한 안전 평가 정보를 갖고 있다.
안전 관련 공시는 주로 소수의 대기업(예: Anthropic, Google DeepMind, OpenAI)에서 나온다.

Figure 2: Only 19.4% of indexed agentic systems disclose a formal safety policy, and fewer than 10% report external safety evaluations.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.