QUICK REVIEW

[論文レビュー] Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

Ruiyang Ren, Yuhao Wang|arXiv (Cornell University)|Mar 11, 2026

Artificial Intelligence in Healthcare and Education被引用数 0

ひとこと要約

DxEvolveは自己進化する臨床AIで、証拠中心のワークフローと再利用可能な学習アーティファクトを活用して、機関を跨ぐ臨床医レベルの診断性能を達成します。

ABSTRACT

Clinical diagnosis is a complex cognitive process, grounded in dynamic cue acquisition and continuous expertise accumulation. Yet most current artificial intelligence (AI) systems are misaligned with this reality, treating diagnosis as single-pass retrospective prediction while lacking auditable mechanisms for governed improvement. We developed DxEvolve, a self-evolving diagnostic agent that bridges these gaps through an interactive deep clinical research workflow. The framework autonomously requisitions examinations and continually externalizes clinical experience from increasing encounter exposure as diagnostic cognition primitives. On the MIMIC-CDM benchmark, DxEvolve improved diagnostic accuracy by 11.2% on average over backbone models and reached 90.4% on a reader-study subset, comparable to the clinician reference (88.8%). DxEvolve improved accuracy on an independent external cohort by 10.2% (categories covered by the source cohort) and 17.1% (uncovered categories) compared to the competitive method. By transforming experience into a governable learning asset, DxEvolve supports an accountable pathway for the continual evolution of clinical AI.

研究の動機と目的

静的AI診断とダイナミックな臨床推論のギャップを、監査可能なガバナンスとともに動機づける。
臨床遭遇から現れた経験アーティファクトを介して進化するワークフロー適合型診断エージェントを提案する。
DCPsを介して学習した診断的ヒューリスティックスの機関間・言語間 portabilityを実現する。
公開ベンチマークと外部コホートで診断の正確さと臨床医レベルの性能を改善で示す。
臨床AIの継続的改善のための監査可能でガバナンスに適した道筋を提供する。

提案手法

DxEvolveを紹介する。これは、エビデンス取得と仮説精錬を導く対話的な深層臨床研究（DCR）ワークフローである。
証拠中心の推論ループ内で、検査・ラボ検査・画像診断・外部ソース（ガイドライン、PubMed）を軽量に探索する。
遭遇経路を診断認知プリミティブ（DCP）として蒸留する。DCPは再利用可能でインデックス化可能な臨床経験のリポジトリである。
固定取得プールを用いたMIMIC-CDM上でDxEvolveを評価し、CDMベースラインおよび非DCPアブレーションと比較する。
翻訳済み・ネイティブ記録を用いた中国人民解放軍総合病院コホートで外部検証を実施してポータビリティを検証する。

実験結果

リサーチクエスチョン

RQ1対話的エビデンス取得制約下で、ワークフロー適合型診断エージェントは臨床医レベルの正確さを達成できるのか。
RQ2診断認知プリミティブは、機関と言語を越えた監査可能・統治可能・転移可能な学習を可能にするのか。
RQ3遭遇の露出が増え、エラーが学習を促すにつれて、自己進化は診断性能にどう影響するのか。
RQ4ガイドラインとPubMedデータの外部取得は必須か、それともコアワークフロースキャフォールドとDCPだけで利得を得られるのか。
RQ5DxEvolveの経験学習の機関間・言語間の一般化性はどうか。

主な発見

DxEvolveは、MIMIC-CDM上のベースLLMバックボーンでCDMベースラインに対して平均正確度を11.2%向上させた。
DxEvolveはリーダースタディのサブセットで90.4%の正確度を達成し、人間の専門家ベンチマーク88.8%を上回った。
外部検証では外部中国コホートでCDMベースラインを10.2%上回り、初期リポジトリに存在しなかったカテゴリで17.1%の利得を示した。
DCP指向の自己進化は、翻訳と機関を越えて転移するポータブルでドメイン非依存のヒューリスティックを提供する（中国語文書を含む）。
後半段階のDCPは臨床医評価スコアが高く、エラー修正エピソードでより頻繁に取得され、経験アーティファクトの成熟を示している。
DxEvolveはエビデンス取得におけるワークフローの一貫性とガイドライン遵守を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。