[論文レビュー] EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning
EvoClinician は、Diagnose-Grade-Evolve ループを用いてケース間にプロンプトとメモリを更新することで多回の医療診断を改善するテスト時学習エージェントであり、Med-Inquire ベンチマークでのベースラインより低コストで診断品質を向上させる。
Prevailing medical AI operates on an unrealistic ''one-shot'' model, diagnosing from a complete patient file. However, real-world diagnosis is an iterative inquiry where Clinicians sequentially ask questions and order tests to strategically gather information while managing cost and time. To address this, we first propose Med-Inquire, a new benchmark designed to evaluate an agent's ability to perform multi-turn diagnosis. Built upon a dataset of real-world clinical cases, Med-Inquire simulates the diagnostic process by hiding a complete patient file behind specialized Patient and Examination agents. They force the agent to proactively ask questions and order tests to gather information piece by piece. To tackle the challenges posed by Med-Inquire, we then introduce EvoClinician, a self-evolving agent that learns efficient diagnostic strategies at test time. Its core is a ''Diagnose-Grade-Evolve'' loop: an Actor agent attempts a diagnosis; a Process Grader agent performs credit assignment by evaluating each action for both clinical yield and resource efficiency; finally, an Evolver agent uses this feedback to update the Actor's strategy by evolving its prompt and memory. Our experiments show EvoClinician outperforms continual learning baselines and other self-evolving agents like memory agents. The code is available at https://github.com/yf-he/EvoClinician
研究の動機と目的
- 実務的で反復的な臨床診断を動機づける。臨床医が初期データの完全性に頼るのではなく、質問や検査を通じて情報を収集する。
- Agent にケース全体ファイルを隠す Med-Inquire というベンチマークを導入し、診断グレードとリソースコストを評価する。
- ケース間でプロンプトと外部メモリを更新する自己進化型エージェント EvoClinician を提案する。
- アクションレベルの評価と TTL 更新が、複数のバックボーンにわたり診断品質と効率を改善することを示す。
- 性能向上に寄与する主要コンポーネントを特定するアブレーション研究を提供する。
提案手法
- 連続的な診断環境として Med-Inquire を提案し、患者と検査 gatekeeper、コストモデルを導入する。
- Actor(診断)、Process Grader(アクションレベルのクレジット割り当て)、 Evolver(プロンプトとメモリの更新)の3役 TTL ループを導入する。
- HIGH_YIELD、INEFFICIENT、CRITICAL_ERROR のラベルを用いたアクションレベルのフィードバックを可能にし、方針の進化を導く。
- Evolver はアクションレベルのフィードバックに基づいて、Actor のプロンプト(ルール)と外部メモリエントリの勾配なし更新を行う。
- 固定ターン制限の下で複数の LLM バックボーンを横断的に評価し、静的なプロンプト、メモリ、プロンプト最適化ベースラインと比較する。
- コストを考慮した評価を用いて過剰検査による正確性向上を抑制し、プロンプトとメモリの進化の相乗効果を示す。

実験結果
リサーチクエスチョン
- RQ1アクションレベルのフィードバックを用いたテスト時学習は、逐次的な医療診断設定における診断精度と資源効率を改善できるか?
- RQ2ケース間でプロンプトとメモリの両方を進化させることは、片方のみを進化させるか静的ベースラインを用いる場合より大きな改善をもたらすか?
- RQ3異なるバックボーンモデルは EvoClinician と TTL ベースの適応からどのような利得を得るか?
- RQ4密なアクションレベルの評価はクレジット割り当てと長期的意思決定にどのような影響を与えるか?
- RQ5プロンプト/メモリの進化はコストモデルと現実世界のケース複雑さのばらつきに対して頑健か?
主な発見
| 方法 | gemini-3-pro S | gemini-3-pro T | gemini-3-pro C |
|---|---|---|---|
| Static Prompt | 48.2 | 9.8 | 1380 |
| RAG | 50.7 | 10.3 | 1490 |
| Mem0 | 51.2 | 10.1 | 1450 |
| Evo-Memory | 52.0 | 10.0 | 1435 |
| Prompt Optimization Agent (EvoPrompt) | 53.6 | 9.7 | 1360 |
| GEPA | 49.4 | 10.6 | 1540 |
| Evolutionary Agent (EvoTest) | 57.9 | 9.4 | 1605 |
| EvoClinician | 59.8 | 9.1 | 1275 |
- EvoClinician はバックボーン全体で平均診断グレードをベースラインより高く達成する例がある(例: gemini-3-pro Static Prompt の場合 59.8 対 48.2)
- 自己進化型手法は非適応なベースラインより高い診断スコアと低コストを達成し、TTL 更新の価値を示す
- アクションレベルの評価は不可欠であり、トランスクリプトレベルのフィードバックだけと比較して精度とコスト効率の双方を低下させる
- プロンプト進化とメモリ進化は相補的な利得を提供し、両方を用いるといずれか一方のみの場合より良い成果を得られる
- EvoClinician は EvoTest と比較して総コストが低く、ターン数も同等または少なく、エピソード後の労力を抑えたよりターゲットを絞った更新を示す
![Figure 2 : Running-mean learning curves on Med-Inquire over $N=915$ cases (fixed evaluation order). Left: running mean Judge grade $\bar{S}_{1:t}=\frac{1}{t}\sum_{i=1}^{t}S_{i}$ , where $S_{i}\in[0,100]$ is the per-case diagnosis grade. Right: running mean cost $\bar{C}_{1:t}=\frac{1}{t}\sum_{i=1}^{](https://ar5iv.labs.arxiv.org/html/2601.22964/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。