Skip to main content
QUICK REVIEW

[논문 리뷰] TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

Shanghua Gao, Richard Zhu|ArXiv.org|2025. 03. 14.
Machine Learning in Healthcare인용 수 5
한 줄 요약

TxAgent는 다단계 추론과 실시간 도구 통합을 통해 211개의 생의학 도구를 활용하여 증거에 근거한 개인화 치료 권고를 제공하는 AI 에이전트입니다. 새 약물-치료 벤치마크에서 대형 LLM 및 기존 도구 사용 모델을 능가합니다.

ABSTRACT

Precision therapeutics require multimodal adaptive models that generate personalized treatment recommendations. We introduce TxAgent, an AI agent that leverages multi-step reasoning and real-time biomedical knowledge retrieval across a toolbox of 211 tools to analyze drug interactions, contraindications, and patient-specific treatment strategies. TxAgent evaluates how drugs interact at molecular, pharmacokinetic, and clinical levels, identifies contraindications based on patient comorbidities and concurrent medications, and tailors treatment strategies to individual patient characteristics. It retrieves and synthesizes evidence from multiple biomedical sources, assesses interactions between drugs and patient conditions, and refines treatment recommendations through iterative reasoning. It selects tools based on task objectives and executes structured function calls to solve therapeutic tasks that require clinical reasoning and cross-source validation. The ToolUniverse consolidates 211 tools from trusted sources, including all US FDA-approved drugs since 1939 and validated clinical insights from Open Targets. TxAgent outperforms leading LLMs, tool-use models, and reasoning agents across five new benchmarks: DrugPC, BrandPC, GenericPC, TreatmentPC, and DescriptionPC, covering 3,168 drug reasoning tasks and 456 personalized treatment scenarios. It achieves 92.1% accuracy in open-ended drug reasoning tasks, surpassing GPT-4o and outperforming DeepSeek-R1 (671B) in structured multi-step reasoning. TxAgent generalizes across drug name variants and descriptions. By integrating multi-step inference, real-time knowledge grounding, and tool-assisted decision-making, TxAgent ensures that treatment recommendations align with established clinical guidelines and real-world evidence, reducing the risk of adverse events and improving therapeutic decision-making.

연구 동기 및 목표

  • 다양한 모달리티 데이터를 기반으로 한 치료적 추론의 필요성을 다루어 환자 특이 요인을 반영하는 정밀 치료를 촉진한다.
  • 다단계 추론과 실시간 생의학 도구 검색을 통합한 AI 에이전트를 개발하여 약물 상호작용, 금기사항, 가이드라인을 평가한다.
  • 도구의 세계(ToolUniverse)의 도구를 확장하고 학습 프레임워크를 구축하여 동적 도구 선택과 증거에 근거한 권고를 가능하게 한다.
  • 도구 보강 추론이 개방형 및 구조화된 약물 추론 과제에서 더 큰 모델을 능가할 수 있음을 입증한다.
  • 약물명 변형, 설명 기반 참조, 맞춤 치료 시나리오 전반에서 일반화 평가를 위한 벤치마크 및 분석을 제공한다.

제안 방법

  • ToolUniverse(211 도구), 다단계 추론 및 도구 실행을 위한 미세조정된 LLM, 그리고 ToolRAG 적응 도구 검색 모델로 구성된 TxAgent 아키텍처를 도입한다.
  • ToolGen을 구성하여 API 문서를 ToolUniverse용 표준 도구 사양으로 변환한다.
  • QuestionGen과 TraceGen 파이프라인을 사용하여 세 가지 소스(도구화, 치료 질문, 추론 traces)로부터 TxAgent-Instruct 데이터셋(378,027개의 instruction-tuning 샘플)을 개발한다.
  • 정적 모델 지식에 의존하지 않고 외부 소스(FDA, Open Targets 등)에 대한 함수 호출을 실행하여 실시간 지식 기반을 가능하게 한다.
  • 최종 답변과 함께 검증과 신뢰를 지지하기 위한 투명한 추론 흔적을 제공한다.
  • 다섯 벤치마크(DrugPC, BrandPC, GenericPC, DescriptionPC, TreatmentPC)에서 3,168개 약물 추론 과제와 456개의 개인화 치료 시나리오를 평가한다.

실험 결과

연구 질문

  • RQ1AI 에이전트가 외부 생의학 도구의 대형 도구 상자를 통합하여 다단계 치료 추론을 effectively 수행할 수 있는가?
  • RQ2확인된 소스에서의 실시간 기반이 정확도를 높이고 LLM-전용 접근법에 비해 약물 추론에서의 환각을 줄이는가?
  • RQ3적응형 도구 검색(ToolRAG)과 구조화된 추론 흔적이 대형 모델 및 기존 도구 사용 LLM에 비해 오픈형 및 다지선다 형식에서 성능을 향상시키는가?
  • RQ4TxAgent는 약물명 표현(브랜드/제네릭/설명)과 서술적 약물 서사에 얼마나 견고한가?
  • RQ5다단계 훈련 흔적과 반복적 도구 사용이 개인화 치료 권고의 성능을 의미 있게 향상시키는가?

주요 결과

  • TxAgent는 open-ended DrugPC 약물 추론 작업에서 92.1%의 정확도를 달성하여 GPT-4o보다 최대 25.8% 앞서고 구조화된 다단계 추론에서 DeepSeek-R1를 능가한다.
  • TxAgent는 다중선택 DrugPC에서 93.8%의 정확도, 개방형 DrugPC에서 92.1%를 달성하여 Llama-3.1-70B-Instruct 및 다른 기준치를 넘어선다.
  • BrandPC 및 GenericPC에서 각각 93.6%와 93.7%의 정확도를 기록하여 순수 LLM 및 도구 사용 벤치마크를 큰 차이로 능가하며 정확도 분산이 낮다(<0.01).
  • TreatmentPC에서 TxAgent는 다중선택 86.8%와 개방형 75.0%의 정확도를 달성해 GPT-4o 및 Llama-3.1-70B-Instruct를 상회하고 도구 사용 LLM을 큰 차이로 능가한다.
  • TxAgent는 약물명 표현에 대해 강건성을 보이며 브랜드/제네릭/설명 참조 간 분산이 벤치마크보다 현저히 낮다(분산 측정값 인용).
  • 잘라내기(ablation) 연구는 ToolUniverse 크기를 늘리면 성능이 향상되고 명시적 추론 단계가 결과를 높이며 실제 도구 사용이 도구를 대체하는 LLM보다 우수하며 다단계 훈련 흔적이 복잡한 추론을 크게 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.