Skip to main content
QUICK REVIEW

[論文レビュー] EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning

Yufei He, Juncheng Liu|arXiv (Cornell University)|Jan 30, 2026
Machine Learning in Healthcare被引用数 0
ひとこと要約

EvoClinician は、Diagnose-Grade-Evolve ループを用いてケース間にプロンプトとメモリを更新することで多回の医療診断を改善するテスト時学習エージェントであり、Med-Inquire ベンチマークでのベースラインより低コストで診断品質を向上させる。

ABSTRACT

Prevailing medical AI operates on an unrealistic ''one-shot'' model, diagnosing from a complete patient file. However, real-world diagnosis is an iterative inquiry where Clinicians sequentially ask questions and order tests to strategically gather information while managing cost and time. To address this, we first propose Med-Inquire, a new benchmark designed to evaluate an agent's ability to perform multi-turn diagnosis. Built upon a dataset of real-world clinical cases, Med-Inquire simulates the diagnostic process by hiding a complete patient file behind specialized Patient and Examination agents. They force the agent to proactively ask questions and order tests to gather information piece by piece. To tackle the challenges posed by Med-Inquire, we then introduce EvoClinician, a self-evolving agent that learns efficient diagnostic strategies at test time. Its core is a ''Diagnose-Grade-Evolve'' loop: an Actor agent attempts a diagnosis; a Process Grader agent performs credit assignment by evaluating each action for both clinical yield and resource efficiency; finally, an Evolver agent uses this feedback to update the Actor's strategy by evolving its prompt and memory. Our experiments show EvoClinician outperforms continual learning baselines and other self-evolving agents like memory agents. The code is available at https://github.com/yf-he/EvoClinician

研究の動機と目的

  • 実務的で反復的な臨床診断を動機づける。臨床医が初期データの完全性に頼るのではなく、質問や検査を通じて情報を収集する。
  • Agent にケース全体ファイルを隠す Med-Inquire というベンチマークを導入し、診断グレードとリソースコストを評価する。
  • ケース間でプロンプトと外部メモリを更新する自己進化型エージェント EvoClinician を提案する。
  • アクションレベルの評価と TTL 更新が、複数のバックボーンにわたり診断品質と効率を改善することを示す。
  • 性能向上に寄与する主要コンポーネントを特定するアブレーション研究を提供する。

提案手法

  • 連続的な診断環境として Med-Inquire を提案し、患者と検査 gatekeeper、コストモデルを導入する。
  • Actor(診断)、Process Grader(アクションレベルのクレジット割り当て)、 Evolver(プロンプトとメモリの更新)の3役 TTL ループを導入する。
  • HIGH_YIELD、INEFFICIENT、CRITICAL_ERROR のラベルを用いたアクションレベルのフィードバックを可能にし、方針の進化を導く。
  • Evolver はアクションレベルのフィードバックに基づいて、Actor のプロンプト(ルール)と外部メモリエントリの勾配なし更新を行う。
  • 固定ターン制限の下で複数の LLM バックボーンを横断的に評価し、静的なプロンプト、メモリ、プロンプト最適化ベースラインと比較する。
  • コストを考慮した評価を用いて過剰検査による正確性向上を抑制し、プロンプトとメモリの進化の相乗効果を示す。
Figure 1 : EvoClinician architecture and test-time learning loop. The Actor interacts with the Med-Inquire environment through AskQuestion and OrderTest , receiving responses from the Patient and Examination agents, while the Cost Estimator tracks resource use. After SubmitDiagnosis , the Judge assi
Figure 1 : EvoClinician architecture and test-time learning loop. The Actor interacts with the Med-Inquire environment through AskQuestion and OrderTest , receiving responses from the Patient and Examination agents, while the Cost Estimator tracks resource use. After SubmitDiagnosis , the Judge assi

実験結果

リサーチクエスチョン

  • RQ1アクションレベルのフィードバックを用いたテスト時学習は、逐次的な医療診断設定における診断精度と資源効率を改善できるか?
  • RQ2ケース間でプロンプトとメモリの両方を進化させることは、片方のみを進化させるか静的ベースラインを用いる場合より大きな改善をもたらすか?
  • RQ3異なるバックボーンモデルは EvoClinician と TTL ベースの適応からどのような利得を得るか?
  • RQ4密なアクションレベルの評価はクレジット割り当てと長期的意思決定にどのような影響を与えるか?
  • RQ5プロンプト/メモリの進化はコストモデルと現実世界のケース複雑さのばらつきに対して頑健か?

主な発見

方法gemini-3-pro Sgemini-3-pro Tgemini-3-pro C
Static Prompt48.29.81380
RAG50.710.31490
Mem051.210.11450
Evo-Memory52.010.01435
Prompt Optimization Agent (EvoPrompt)53.69.71360
GEPA49.410.61540
Evolutionary Agent (EvoTest)57.99.41605
EvoClinician59.89.11275
  • EvoClinician はバックボーン全体で平均診断グレードをベースラインより高く達成する例がある(例: gemini-3-pro Static Prompt の場合 59.8 対 48.2)
  • 自己進化型手法は非適応なベースラインより高い診断スコアと低コストを達成し、TTL 更新の価値を示す
  • アクションレベルの評価は不可欠であり、トランスクリプトレベルのフィードバックだけと比較して精度とコスト効率の双方を低下させる
  • プロンプト進化とメモリ進化は相補的な利得を提供し、両方を用いるといずれか一方のみの場合より良い成果を得られる
  • EvoClinician は EvoTest と比較して総コストが低く、ターン数も同等または少なく、エピソード後の労力を抑えたよりターゲットを絞った更新を示す
Figure 2 : Running-mean learning curves on Med-Inquire over $N=915$ cases (fixed evaluation order). Left: running mean Judge grade $\bar{S}_{1:t}=\frac{1}{t}\sum_{i=1}^{t}S_{i}$ , where $S_{i}\in[0,100]$ is the per-case diagnosis grade. Right: running mean cost $\bar{C}_{1:t}=\frac{1}{t}\sum_{i=1}^{
Figure 2 : Running-mean learning curves on Med-Inquire over $N=915$ cases (fixed evaluation order). Left: running mean Judge grade $\bar{S}_{1:t}=\frac{1}{t}\sum_{i=1}^{t}S_{i}$ , where $S_{i}\in[0,100]$ is the per-case diagnosis grade. Right: running mean cost $\bar{C}_{1:t}=\frac{1}{t}\sum_{i=1}^{

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。