[논문 리뷰] AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework
논문은 코드를 co-evolve 하는 코드 생성 프레임워크로, 로우코드 플랫폼으로 구현된 Bayesian 적대적 다-agent 프레임워크(Task Manager, Solution Generator, Evaluator)가 다양한 LLM들 간의 강건한 AI-과학 코드 생성을 향상시키기 위해 코드, 테스트, 프롬프트를 함께 발전시킵니다.
Large Language Models (LLMs) demonstrate potentials for automating scientific code generation but face challenges in reliability, error propagation in multi-agent workflows, and evaluation in domains with ill-defined success metrics. We present a Bayesian adversarial multi-agent framework specifically designed for AI for Science (AI4S) tasks in the form of a Low-code Platform (LCP). Three LLM-based agents are coordinated under the Bayesian framework: a Task Manager that structures user inputs into actionable plans and adaptive test cases, a Code Generator that produces candidate solutions, and an Evaluator providing comprehensive feedback. The framework employs an adversarial loop where the Task Manager iteratively refines test cases to challenge the Code Generator, while prompt distributions are dynamically updated using Bayesian principles by integrating code quality metrics: functional correctness, structural alignment, and static analysis. This co-optimization of tests and code reduces dependence on LLM reliability and addresses evaluation uncertainty inherent to scientific tasks. LCP also streamlines human-AI collaboration by translating non-expert prompts into domain-specific requirements, bypassing the need for manual prompt engineering by practitioners without coding backgrounds. Benchmark evaluations demonstrate LCP's effectiveness in generating robust code while minimizing error propagation. The proposed platform is also tested on an Earth Science cross-disciplinary task and demonstrates strong reliability, outperforming competing models.
연구 동기 및 목표
- 다양한 과학 과제에서 다중 에이전트 LLM 코드 생성의 신뢰성 및 오류 전파 문제를 해결한다.
- 비전문가가 애매한 도메인 프롬프트를 실행 가능한 도메인 일관성 요구사항으로 변환할 수 있도록 한다.
- 단일 모델 의존도를 줄이기 위해 프롬프트의 베이지안 업데이트 규칙으로 코드, 테스트 케이스, 프롬프트를 공동 진화시킨다.
- 다양한 기본 모델들에 걸쳐 지구과학 및 AI-과학 벤치마크에서 강건성과 도메인 간 효과를 시연한다.
제안 방법
- 세-에이전트 아키텍처: Task Manager(Challenger), Solution Generator(Solver), Evaluator가 계획, 테스트 케이스 및 코드를 반복적으로 공동 최적화한다.
- 프롬프트의 베이지안 업데이트: p(Prompt^{t+1}_{ij}|S_3^t) ∝ p(S_3^t|Prompt^{t}_{ij}) p(Prompt^{t}_{ij})로, 단일 LLM에 의존하지 않는 재귀적 개선을 가능하게 한다.
- 베이지안 최적화에 의한 사전 추정: AST/코드 임베딩으로 생성된 코드를 포함하고, 테스트된 코드와의 구조적 유사성을 기반으로 성능을 예측하여 비싼 평가를 안내한다.
- Adversarial test case generation (ATC): TM이 SG를 자극하기 위해 도전적이면서도 해결 가능한 테스트 케이스를 만들어 강건성을 높이고 오류 전파를 감소시킨다.
- 반복 평가 프레임워크: 테스트 케이스 점수 S1, 코드 점수 S2, 프롬프트 점수 S3를 계산하여 베이지안 프롬프트 업데이트와 후보 프롬프트 선택을 주도한다.
- 샘플 코드 풀 관리: 높은 가이드 품질의 샘플 코드 풀을 유지·확대하고 SG로부터 새로운 고성능 코드를 반영한다.

실험 결과
연구 질문
- RQ1베이지안 적대적 다-agent 프레임워크가 다양한 LLM 간의 AI-과학 코드 생성의 신뢰성과 강건성을 향상시킬 수 있는가?
- RQ2적대적 테스트 케이스 생성 메커니즘이 다중 에이전트 코드 생성 파이프라인의 오류 전파를 완화하는가?
- RQ3이 프레임워크가 AI-과학 벤치마크 및 일반 코드 생성 벤치마크에서 최신의 베이스라인과 비교하여 어떠한 성능을 보이는가?
- RQ4비전문 도메인 사용자가 전문 프롕자 엔지니어링 없이도 로우코드 플랫폼을 통해 모호한 프롬프트를 실행 가능한 과학적 워크플로우로 변환할 수 있는가?
- RQ5다중 반복 프롬프트 업데이트가 해결책 품질에 미치는 영향은 무엇인가?
주요 결과
- 프레임워크는 기저 모델의 수를 1.7B에서 235B로 줄이더라도 강건한 해를 산출하며 지구과학 벤치마크에서 주목할 만한 이점을 보인다.
- SciCode에서 프레임워크를 탑재한 더 작은 오픈 소스 모델들이 특정 설정에서 더 큰 모델에 근접하거나 이를 능가하는 성능을 보인다(예: Qwen3-14b가 특정 경우에서 더 큰 벤치마크와 유사한 성능을 보임).
- ScienceAgentBench에서 GPT-4o와 함께 프레임워크는 최첨단 Valid Execution Rate(VER)와 경쟁력 있는 SR/CBS 점수를 달성한다.
- 반복적인 베이지안 공동 업데이트가 반복에 따라 성능을 개선하며, ATC(Adversarial Test Cases)가 후기 반복에서 추가 이점을 제공한다.
- 프레임워크는 프롬프트 품질에 대한 강건성을 보여 기본 프롬프트와 전문가 프롬프트 간의 격차를 줄이고 비전문가도 강한 결과를 얻을 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.