[논문 리뷰] AutoHealth: An Uncertainty-Aware Multi-Agent System for Autonomous Health Data Modeling
AutoHealth is a closed-loop, multi-agent framework for autonomous health data modeling that jointly optimizes predictive performance and uncertainty estimation, producing deployable models and reliability reports across 17 heterogeneous health tasks.
LLM-based agents have demonstrated strong potential for autonomous machine learning, yet their applicability to health data remains limited. Existing systems often struggle to generalize across heterogeneous health data modalities, rely heavily on predefined solution templates with insufficient adaptation to task-specific objectives, and largely overlook uncertainty estimation, which is essential for reliable decision-making in healthcare. To address these challenges, we propose extit{AutoHealth}, a novel uncertainty-aware multi-agent system that autonomously models health data and assesses model reliability. extit{AutoHealth} employs closed-loop coordination among five specialized agents to perform data exploration, task-conditioned model construction, training, and optimization, while jointly prioritizing predictive performance and uncertainty quantification. Beyond producing ready-to-use models, the system generates comprehensive reports to support trustworthy interpretation and risk-aware decision-making. To rigorously evaluate its effectiveness, we curate a challenging real-world benchmark comprising 17 tasks across diverse data modalities and learning settings. extit{AutoHealth} completes all tasks and outperforms state-of-the-art baselines by 29.2\% in prediction performance and 50.2\% in uncertainty estimation.
연구 동기 및 목표
- 다양한 모달리티의 실제 건강 데이터에서 이질성과 불규칙성을 해소한다.
- 템플릿 파이프라인을 넘는 작업 조건화 추론으로 자율 모델 구성을 가능하게 한다.
- 건강 모델링에서 보정된 불확실성 정량화를 1급 목표로 통합한다.
- 신뢰할 수 있는 의사결정을 지원하기 위한 포괄적 신뢰성 보고서를 생성한다.
- 도전적인 17-task 건강 벤치마크에서 일반화와 신뢰성을 입증한다.
제안 방법
- 다섯 개의 특수 에이전트(Data, Design, Coding, Report, Meta)가 계획, 실행, 보고를 위해 폐쇄 루프에서 작동한다.
- Data-Agent가 코드 기반의 데이터 탐색과 품질 평가를 수행하여 구조화된 데이터 프로필을 구축한다.
- Design-Agent가 데이터 프로필과 작업에 조건화된 적응적 실험 계획을 만들고, 검색 기반의 근거 제시와 반복적인 정제를 위한 메모리를 사용한다.
- Coding-Agent가 단계적 실행을 통해 계획을 구현하고 성능과 불확실성을 기록하며 진단을 위한 VLLM 지원 반성적 분석을 사용한다.
- Report-Agent가 결과를 스키마 기반의 해석 중심 신뢰성 보고서로 합성하고 불확실성 분석을 포함한다.
- 시스템 메모리 M은 라운드 간 설계 결정과 결과를 축적하여 라운드 간 개선을 가능하게 한다.

실험 결과
연구 질문
- RQ1불확실성 정량화를 자율 건강 데이터 모델링의 동반 주목표로 어떻게 포함시킬 수 있는가?
- RQ2폐쇄 루프의 다중 에이전트 시스템이 이질적인 건강 데이터 모달리티와 학습 작업 전반에 일반화될 수 있는가?
- RQ3데이터 탐색과 단계적 실행이 작업 성공과 신뢰성 향상에 어떤 역할을 하는가?
- RQ4자동화된 보고서가 신뢰할 수 있는 해석과 위험 인식 배치에 어떻게 기여하는가?
주요 결과
| 모달리티 | 작업 유형 | ID | 이름 | 지표 |
|---|---|---|---|---|
| Tabular | Classification | 1 | Smoker status prediction | Accuracy |
| Tabular | Classification | 2 | Patient survival prediction | Accuracy |
| Tabular | Classification | 3 | Drug response mechanism prediction | Log Loss |
| Tabular | Regression | 4 | Calorie estimation | RMSLE |
| Tabular | Survival analysis | 5 | Post-HCT survival prediction | C-index |
| Image | Classification | 6 | Skin cancer identification | F1 |
| Image | Classification | 7 | Melanoma detection | Accuracy |
| Image | Segmentation | 8 | Retinal blood vessel segmentation | Dice |
| Time series | Classification | 9 | ECG-based arrhythmia detection | F1 |
| Time series | Classification | 10 | IMU-based gesture prediction | Average F1 |
| Time series | Classification | 11 | EEG-based seizure prediction | KL divergence |
| Forecasting | Forecasting | 12 | COVID-19 infection case forecasting | MAE |
| Free text | Classification | 13 | Autism spectrum disorder prediction | Accuracy |
| Free text | Classification | 14 | COVID-19 sentiment classification | Accuracy |
| Audio | Classification | 15 | Respiratory disease prediction | Macro-F1 |
| Audio | Classification | 16 | Dysarthria detection | Accuracy |
| Graph | Link prediction | 17 | Protein link property prediction | Hits@20 |
- AutoHealth는 17-task 벤치마크에서 100% 작업 성공률을 달성한다.
- AutoHealth는 평균 NPS에서 기준선 대비 예측 성능을 29.2% 개선한다.
- AutoHealth는 평균 불확실성 점수에서 기준선 대비 불확실성 정량화를 50.2% 향상시킨다.
- AutoHealth는 작업 전반에서 평균 CS 0.840의 최고 점수를 얻는다.
- 데이터 탐색 또는 단계적 실행 제거가 성공률을 감소시키는 것으로 확인되어 그 중요성을 뒷받침한다.
- 대표적인 Task 15 보고서는 이중 분기 아키텍처, 깊은 앙상블, 그리고 실행 가능한 배치 가이드를 제공하는 불확실성 인식 기피를 시연한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.