QUICK REVIEW

[논문 리뷰] Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution

Cheng Qian, Shihao Liang|arXiv (Cornell University)|2024. 01. 25.

Advanced Malware Detection Techniques인용 수 6

한 줄 요약

ICE는 계획과 실행 경험을 분리하는 3단계 전략(Investigate, Consolidate, Exploit)으로 AI 에이전트의 간TASK 간 자기 진화를 가능하게 하여 API 호출을 줄이고 더 강한 백본 성능과 일치시킨다.

ABSTRACT

This paper introduces Investigate-Consolidate-Exploit (ICE), a novel strategy for enhancing the adaptability and flexibility of AI agents through inter-task self-evolution. Unlike existing methods focused on intra-task learning, ICE promotes the transfer of knowledge between tasks for genuine self-evolution, similar to human experience learning. The strategy dynamically investigates planning and execution trajectories, consolidates them into simplified workflows and pipelines, and exploits them for improved task execution. Our experiments on the XAgent framework demonstrate ICE's effectiveness, reducing API calls by as much as 80% and significantly decreasing the demand for the model's capability. Specifically, when combined with GPT-3.5, ICE's performance matches that of raw GPT-4 across various agent tasks. We argue that this self-evolution approach represents a paradigm shift in agent design, contributing to a more robust AI community and ecosystem, and moving a step closer to full autonomy.

연구 동기 및 목표

태스크 간 지식 이전을 촉진하여 자율 에이전트 자기 진화를 가능하게 한다.
계획 및 실행 경험을 분리하여 재사용 가능한 기억으로 만든다.
경험을 표준화된 워크플로우와 파이프라인으로 통합하여 자동 재사용을 가능하게 한다.
XAgent 프레임워크에서 효율성과 효과 향상을 입증한다.

제안 방법

태스크 전반에 걸친 계획 및 실행 경험을 식별하고 추적한다.
성공적인 계획을 선형 워크플로우로 통합하고 성공적인 실행 궤적을 유한 오토마타 파이프라인으로 통합한다.
외부 메모리에 워크플로우와 파이프라인을 저장하여 유사성으로 검색할 수 있도록 한다.
탐색된 워크플로우/파이프라인을 활용하여 새로운 작업 계획과 자동 실행을 안내한다.
XAgent에서 API 호출 감소, 완료율, 수정 횟수, 재활용을 통해 ICE를 평가한다.

실험 결과

연구 질문

RQ1태스크 간 경험을 계획과 실행으로 분리하여 다른 태스크에서 재사용할 수 있는가?
RQ2통합된 워크플로우와 파이프라인이 새로운 태스크에서 효율성과 효과를 향상시키는가?
RQ3ICE가 API 사용량, 계획 품질, 실행의 견고성에 어떤 영향을 미치는가?
RQ4검색된 계획/파이프라인이 보이지 않는(unseen) 그러나 유사한 작업으로 얼마나 잘 전이되는가?

주요 결과

ICE 전략	모델	API 호출(전체)	API 호출(도구)	완료율(하위과제, %)	수정 횟수	재활용 비율
표준(ICE 없음)	GPT-4	3025	807	82.18	45	-
GPT-3.5	4535	901	37.21	275	-
계획 ICE	GPT-4	2073	628	89.55	39	-
실행 ICE	GPT-4	456	317	93.10	-	53.52
계획 + 실행	GPT-4	495	313	90.32	6	47.89
GPT-3.5	401	257	90.74	5	53.52

ICE로 API 호출을 최대 80%까지 줄일 수 있다.
실행 ICE가 API 호출 감소에 가장 큰 기여를 한다.
ICE는 일반적으로 하위과제 완료율을 높이고 계획 수정 횟수를 줄인다.
발굴된 파이프라인의 unseen 태스크에 대한 재활용률은 약 50%이다.
Exploit 시 GPT-3.5는 ICE를 사용할 때 성능 면에서 GPT-4와 맞먹을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.