[논문 리뷰] Experience-Driven Multi-Agent Systems Are Training-free Context-aware Earth Observers
GeoEvolver는 학습 없이, 경험에 기반한 다중 에이전트 시스템으로, 메모리 뱅크에 미세한 EO 도구 실행 프라이어를 축적하여 파라미터 업데이트 없이 끝-to-end Earth Observation 작업을 개선합니다. 질의를 분해하고 도구 구성을 탐색하며 실패를 재활용 가능한 메모리로 응축합니다.
Recent advances have enabled large language model (LLM) agents to solve complex tasks by orchestrating external tools. However, these agents often struggle in specialized, tool-intensive domains that demand long-horizon execution, tight coordination across modalities, and strict adherence to implicit tool constraints. Earth Observation (EO) tasks exemplify this challenge due to the multi-modal and multi-temporal data inputs, as well as the requirements of geo-knowledge constraints (spectrum library, spatial reasoning, etc): many high-level plans can be derailed by subtle execution errors that propagate through a pipeline and invalidate final results. A core difficulty is that existing agents lack a mechanism to learn fine-grained, tool-level expertise from interaction. Without such expertise, they cannot reliably configure tool parameters or recover from mid-execution failures, limiting their effectiveness in complex EO workflows. To address this, we introduce extbf{GeoEvolver}, a self-evolving multi-agent system~(MAS) that enables LLM agents to acquire EO expertise through structured interaction without any parameter updates. GeoEvolver decomposes each query into independent sub-goals via a retrieval-augmented multi-agent orchestrator, then explores diverse tool-parameter configurations at the sub-goal level. Successful patterns and root-cause attribution from failures are then distilled in an evolving memory bank that provides in-context demonstrations for future queries. Experiments on three tool-integrated EO benchmarks show that GeoEvolver consistently improves end-to-end task success, with an average gain of 12\% across multiple LLM backbones, demonstrating that EO expertise can emerge progressively from efficient, fine-grained interactions with the environment.
연구 동기 및 목표
- EO 실패가 계획만이 아닌 실행 기반성에서 비롯되는 이유를 식별한다.
- 모델 매개변수를 업데이트하지 않고 구조화된 상호작용을 통해 EO 전문 지식을 얻기 위해 GeoEvolver를 제안한다.
- 여러 LLM 백본에 걸친 실행 경험의 기억이 엔드-투-엔드 EO 작업 성공을 개선한다는 것을 보여준다.
제안 방법
- 각 EO 쿼리를 전문 실행기에 할당된 모듈식 하위 목표로 분해한다.
- 패턴과 실패의 메모리 뱅크로부터 하위 목표를 구성하기 위해 검색 보강된 오케스트레이터를 사용한다.
- 다중 변형과 재시도를 통해 안정적인 도구 구성를 찾기 위해 병렬 탐색을 허용한다.
- 하위 목표 궤적을 판단하고 검증하며 성공/실패 신호를 메모리에 전달한다.
- 전역 Memory Bank와 로컬 Working Memory로 두 계층의 메모리 시스템을 유지한다.
- 단일-변형 추출 및 대조적 증류를 통해 성공 패턴과 실패 속성을 메모리 뱅크로 점진적으로 증류한다.
실험 결과
연구 질문
- RQ1GeoEvolver가 다양한 LLM 백본에서 엔드-투-엔드 EO 작업 성능을 향상시키는가?
- RQ2모델 용량이 EO 벤치마크에서 GeoEvolver의 향상에 어떤 영향을 미치는가?
- RQ3다른 도구-양식 결합을 가진 EO 벤치마크에서도 GeoEvolver가 robust한가?
- RQ4기존의 메모리 기반 및 다중 에이전트 EO 방법과 비교하여 GeoEvolver의 성능은 어떠한가?
- RQ5실행기 수, 추론 변형 수, 메모아이템 수가 성능에 미치는 영향은 무엇인가?
주요 결과
| Method | Tool-A-O ↑ | Tool-I-O ↑ | Tool-E-M ↑ | Efficiency ↓ | Accuracy ↑ |
|---|---|---|---|---|---|
| Expel | 32.72 | 25.94 | 22.48 | 1.79 | 22.58 |
| Zhao et al. (Training-free GRPO) | 57.24 | 44.36 | 36.44 | 1.36 | 31.25 |
| Chase (DeepAgents) | 41.67 | 33.98 | 25.45 | 1.06 | 29.69 |
| Earth-Agent-MAS | 32.28 | 26.96 | 20.91 | 1.47 | 15.87 |
| Ours (GeoEvolver) | 57.66 | 44.66 | 39.06 | 1.47 | 76.56 |
- GeoEvolver는 여러 백본에서 EO 벤치마크에 대해 평균 엔드-투-엔드 정확도 향상을 12.56 퍼센트 포인트 달성한다.
- 작은 모델은 메모리 증가된 경험으로 불균형적으로 이익을 얻는다, 예를 들어 Qwen3-32B는 24.80%에서 46.96%로 올랐다(+22.16 pp).
- 엔드-투-엔드 정확도 향상은 단계별 점수의 감소를 동반할 수 있으며, 기능적으로는 올바르지만 인간이 아닌 궤적을 시사한다.
- GeoEvolver는 Earth-Agent 벤치마크에서 메모리 기반 방법 및 고정 워크플로 MAS를 능가한다(예: Earth-Agent-MAS에서 76.56% 대 15.87%).
- 적절 제거 시 큰 감소가 나타나며, 자기대조(self-contrast)와 병렬 탐색이 가장 큰 이득에 기여하는 것으로 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.