[論文レビュー] TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools
TxAgentは、マルチステップ推論とリアルタイムツール統合を、211の生物医学ツールを用いて行い、エビデンスに基づく個別化治療推奨を提供するAIエージェントです。新しい薬物-療法ベンチマークにおいて、巨大なLLMや既存のツール使用モデルを上回ります。
Precision therapeutics require multimodal adaptive models that generate personalized treatment recommendations. We introduce TxAgent, an AI agent that leverages multi-step reasoning and real-time biomedical knowledge retrieval across a toolbox of 211 tools to analyze drug interactions, contraindications, and patient-specific treatment strategies. TxAgent evaluates how drugs interact at molecular, pharmacokinetic, and clinical levels, identifies contraindications based on patient comorbidities and concurrent medications, and tailors treatment strategies to individual patient characteristics. It retrieves and synthesizes evidence from multiple biomedical sources, assesses interactions between drugs and patient conditions, and refines treatment recommendations through iterative reasoning. It selects tools based on task objectives and executes structured function calls to solve therapeutic tasks that require clinical reasoning and cross-source validation. The ToolUniverse consolidates 211 tools from trusted sources, including all US FDA-approved drugs since 1939 and validated clinical insights from Open Targets. TxAgent outperforms leading LLMs, tool-use models, and reasoning agents across five new benchmarks: DrugPC, BrandPC, GenericPC, TreatmentPC, and DescriptionPC, covering 3,168 drug reasoning tasks and 456 personalized treatment scenarios. It achieves 92.1% accuracy in open-ended drug reasoning tasks, surpassing GPT-4o and outperforming DeepSeek-R1 (671B) in structured multi-step reasoning. TxAgent generalizes across drug name variants and descriptions. By integrating multi-step inference, real-time knowledge grounding, and tool-assisted decision-making, TxAgent ensures that treatment recommendations align with established clinical guidelines and real-world evidence, reducing the risk of adverse events and improving therapeutic decision-making.
研究の動機と目的
- 患者固有の要因を考慮したマルチモーダルでデータに基づく治療推論の必要性に対処し、精密治療を促進する。
- 薬物相互作用・禁忌・ガイドラインを評価するため、マルチステップ推論とリアルタイムの生物医学ツール取得を統合するAIエージェントを開発する。
- 動的なツール選択とエビデンスに基づく推奨を可能にする、スケーラブルなToolUniverseと学習フレームワークを作成する。
- ツールを補助とした推論が、オープンエンドおよび構造化された薬物推論タスクで、より大きなモデルを上回ることを実証する。
- 薬名の変種、説明ベースの参照、個別化治療シナリオ全体での一般化を評価するベンチマークと分析を提供する。
提案手法
- ToolUniverse(211ツール)、マルチステップ推論とツール実行の微調整済みLLM、およびToolRAG適応ツール取得モデルからなるTxAgentアーキテクチャを導入する。
- ToolGenを構築し、APIドキュメントをToolUniverseの標準化されたツール仕様に変換する。
- QuestionGenとTraceGenパイプラインを用いて、3つの source(tooling、therapeutic questions、reasoning traces)から、TxAgent-Instructデータセット(378,027 instruction-tuningサンプル)を開発する。
- 静的なモデル知識に依存するのではなく、外部ソース(例:FDA、Open Targets)への関数呼び出しを実行して、リアルタイムの知識 groundingを有効にする。
- 検証と信頼を支援するため、最終回答に伴う透明な推論経緯を提供する。
- 5つのベンチマーク(DrugPC、BrandPC、GenericPC、DescriptionPC、TreatmentPC)で評価する。3,168の薬物推論タスクと456の個別化治療シナリオを横断する。
実験結果
リサーチクエスチョン
- RQ1外部生物医学ツールの大規模なツールボックスを統合して、AIエージェントがマルチステップの治療推論を効果的に行うにはどうすればよいか?
- RQ2検証済みソースからのリアルタイム grounding が、薬物推論の精度を向上させ、LLMのみのアプローチに比べて幻覚を減らすか?
- RQ3適応型ツール取得(ToolRAG)と構造化された推論 traces が、オープンエンドおよび選択式の形式で、より大きなモデルや既存のツール使用LLMよりも性能を向上させるか?
- RQ4薬名表現に対するTxAgentの頑健性はどれくらいか?
- RQ5マルチステップのトレーニング traces と反復的なツール使用は、個別化治療推奨の性能を意味的に向上させるか?
主な発見
- TxAgentは、オープンエンドのDrugPC薬物推論タスクで92.1%の精度を達成し、GPT-4oを最大25.8%上回り、構造化マルチステップ推論でDeepSeek-R1を上回る。
- DrugPCの選択式で93.8%、オープンエンドで92.1%の精度を達成し、Llama-3.1-70B-Instructや他のベースラインをタスク全体で上回る。
- BrandPCで93.6%、GenericPCで93.7%の精度を達成し、純粋なLLMsや大規模ツール使用ベースラインを大きな差で上回し、精度の分散は低い(< 0.01)。
- TreatmentPCでは、86.8%の選択式と75.0%のオープンエンド精度を達成し、GPT-4oとLlama-3.1-70B-Instructを上回り、ツール使用LLMを大きく上回る。
- TxAgentは薬名表現に対する頑健性を示し、ブランド/一般名/説明参照間の分散はベースラインより著しく低い(分散の測定値を引用)。
- アブレーション研究は、ToolUniverseのサイズを増やすと性能が向上し、明示的な推論手順が結果を押し上げ、実ツール使用がツールを代替するLLMsを上回ることを示し、マルチステップのトレーニング traces が複雑な推論を大幅に向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。