[論文レビュー] AutoHealth: An Uncertainty-Aware Multi-Agent System for Autonomous Health Data Modeling
AutoHealthは、予測性能と不確実性推定を共同で最適化する自律的ヘルスデータモデリングのクローズドループ型マルチエージェントフレームワークで、17の異種ヘルスタスクにわたるデプロイ可能なモデルと信頼性レポートを作成します。
LLM-based agents have demonstrated strong potential for autonomous machine learning, yet their applicability to health data remains limited. Existing systems often struggle to generalize across heterogeneous health data modalities, rely heavily on predefined solution templates with insufficient adaptation to task-specific objectives, and largely overlook uncertainty estimation, which is essential for reliable decision-making in healthcare. To address these challenges, we propose extit{AutoHealth}, a novel uncertainty-aware multi-agent system that autonomously models health data and assesses model reliability. extit{AutoHealth} employs closed-loop coordination among five specialized agents to perform data exploration, task-conditioned model construction, training, and optimization, while jointly prioritizing predictive performance and uncertainty quantification. Beyond producing ready-to-use models, the system generates comprehensive reports to support trustworthy interpretation and risk-aware decision-making. To rigorously evaluate its effectiveness, we curate a challenging real-world benchmark comprising 17 tasks across diverse data modalities and learning settings. extit{AutoHealth} completes all tasks and outperforms state-of-the-art baselines by 29.2\% in prediction performance and 50.2\% in uncertainty estimation.
研究の動機と目的
- 現実世界のヘルスデータのモダリティ間の異質性と不規則性に対処する。
- テンプレートパイプラインを超えたタスク条件付き推論による自律的モデル構築を可能にする。
- ヘルスモデリングにおいてキャリブレーションされた不確実性定量を第一級の目的として統合する。
- 信頼できる意思決定を支える包括的な信頼性重視レポートを生成する。
- 挑戦的な17タスクのヘルスベンチマークで一般化と信頼性を実証する。
提案手法
- 5つの専門エージェント(データ、設計、コーディング、レポート、メタ)が閉ループで連携し、計画・実行・報告を行う。
- データエージェントはコード駆動のデータ探索と品質評価を実行し、構造化データプロファイルを構築する。
- 設計エージェントはデータプロファイルとタスクに条件付けられた適応的実験計画を作成し、リトリーバルに基づくグラウンディングと反復的改良のための記憶を持つ。
- コーディングエージェントは計画を段階的実行で実装し、パフォーマンスと不確実性をログし、診断のためのVLLM支援の回顧的分析を使用する。
- レポートエージェントは結果をスキーマ駆動の解釈重視の信頼性レポートへ統合し、不確実性分析を含める。
- システムメモリMはラウンドを横断して設計決定と結果を蓄積し、ラウンド間の改善を可能にする。

実験結果
リサーチクエスチョン
- RQ1自律的ヘルスデータモデリングにおいて不確実性定量を共原動的な目的として組み込むにはどうすればよいか?
- RQ2クローズドループのマルチエージェントシステムは異種ヘルスデータモダリティと学習タスクを一般化できるか?
- RQ3データ探索と段階的実行はタスク成功と信頼性の向上においてどのような役割を果たすか?
- RQ4自動化されたレポートは解釈の信頼性とリスクを考慮したデプロイにどのように寄与するか?
主な発見
| Modality | Task Type | ID | Name | Metric |
|---|---|---|---|---|
| Tabular | Classification | 1 | Smoker status prediction | Accuracy |
| Tabular | Classification | 2 | Patient survival prediction | Accuracy |
| Tabular | Classification | 3 | Drug response mechanism prediction | Log Loss |
| Tabular | Regression | 4 | Calorie estimation | RMSLE |
| Tabular | Survival analysis | 5 | Post-HCT survival prediction | C-index |
| Image | Classification | 6 | Skin cancer identification | F1 |
| Image | Classification | 7 | Melanoma detection | Accuracy |
| Image | Segmentation | 8 | Retinal blood vessel segmentation | Dice |
| Time series | Classification | 9 | ECG-based arrhythmia detection | F1 |
| Time series | Classification | 10 | IMU-based gesture prediction | Average F1 |
| Time series | Classification | 11 | EEG-based seizure prediction | KL divergence |
| Forecasting | Forecasting | 12 | COVID-19 infection case forecasting | MAE |
| Free text | Classification | 13 | Autism spectrum disorder prediction | Accuracy |
| Free text | Classification | 14 | COVID-19 sentiment classification | Accuracy |
| Audio | Classification | 15 | Respiratory disease prediction | Macro-F1 |
| Audio | Classification | 16 | Dysarthria detection | Accuracy |
| Graph | Link prediction | 17 | Protein link property prediction | Hits@20 |
- AutoHealthは17タスクベンチマークでタスク成功率100%を達成。
- AutoHealthは基準値に対して平均NPSで予測性能を29.2%改善。
- AutoHealthは基準値に対して平均不確実性スコアで不確実性定量を50.2%改善。
- AutoHealthはタスク全体で平均0.840の最も高い総合スコア(CS)を獲得。
- データ探索または段階的実行を削除すると成功率が低下することがアブレーションで示され、それらの重要性を確認。
- 代表的なTask 15レポートは二重分岐アーキテクチャ、深いアンサンブル、および実用的なデプロイガイダンスを伴う不確実性を考慮した黙示的拒否を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。