Skip to main content
QUICK REVIEW

[논문 리뷰] Hunt Globally: Wide Search AI Agents for Drug Asset Scouting in Investing, Business Development, and Competitive Intelligence

A I Vinogradova, В. М. Виноградов|arXiv (Cornell University)|2026. 02. 16.
Computational Drug Discovery Methods인용 수 0
한 줄 요약

이 논문은 Bioptic Agent라는 트리 기반의 다중언어 AI 시스템과 글로벌 약물 자산 탐색을 위한 완전성 우선 벤치마크를 제시하여, 다중언어 소스에서 포괄적이고 비환각적 발견을 강조함으로써 여러 상용 기준선보다 더 높은 F1을 달성한다.

ABSTRACT

Bio-pharmaceutical innovation has shifted: many new drug assets now originate outside the United States and are disclosed primarily via regional, non-English channels. Recent data suggests that over 85% of patent filings originate outside the U.S., with China accounting for nearly half of the global total. A growing share of scholarly output is also non-U.S. Industry estimates put China at 30% of global drug development, spanning 1,200+ novel candidates. In this high-stakes environment, failing to surface "under-the-radar" assets creates multi-billion-dollar risk for investors and business development teams, making asset scouting a coverage-critical competition where speed and completeness drive value. Yet today's Deep Research AI agents still lag human experts in achieving high recall discovery across heterogeneous, multilingual sources without hallucination. We propose a benchmarking methodology for drug asset scouting and a tuned, tree-based self-learning Bioptic Agent aimed at complete, non-hallucinated scouting. We construct a challenging completeness benchmark using a multilingual multi-agent pipeline: complex user queries paired with ground-truth assets that are largely outside U.S.-centric radar. To reflect real-deal complexity, we collected screening queries from expert investors, BD, and VC professionals and used them as priors to conditionally generate benchmark queries. For grading, we use LLM-as-judge evaluation calibrated to expert opinions. On this benchmark, our Bioptic Agent achieves 79.7% F1 score, outperforming Claude Opus 4.6 (56.2%), Gemini 3 Pro + Deep Research (50.6%), OpenAI GPT-5.2 Pro (46.6%), Perplexity Deep Research (44.2%), and Exa Websets (26.9%). Performance improves steeply with additional compute, supporting the view that more compute yields better results.

연구 동기 및 목표

  • BD/S&E를 위한 광범위 커버리지의 다중언어 약물 자산 탐색 필요성을 동기 부여하고, 비영어 중심의 글로벌 혁신 환경에서 이를 형식화한다.
  • 메서드로 인한 편향을 줄이고 오픈 월드 자산 발견을 평가하는 완전성 지향 벤치마킹 방법론을 개발한다.
  • 다언어에 걸친 비허황적이고 완전한 자산 발견에 최적화된 트리 기반의 자기 학습 시스템인 Bioptic Agent를 제안하고 평가한다.
  • 높은 재현율을 가진 광범위 자산 식별이 향상되도록 더 많은 컴퓨트와 언어 병렬 탐색이 개선된다는 것을 보여준다.
  • 증거 수집, 출처(프로벤언스) 및 전문가 정합 검증의 집계가 BD-grade 탐색 품질을 향상시키는 방법을 강조한다.

제안 방법

  • 비-US 지역 소스에서 도출된 실제 자산을 가진 다국어, 지역 연합형 완전성 벤치마크를 구축한다.
  • 지역-언어-소스 튜플에서 자산을 수집하고 표준 링크를 가진 후보 자산을 생성하는 Regional News Miner를 도입한다.
  • 속성 강화 에이전트를 통해 채굴된 자산을 보강하여 유효성을 검증하고별칭 해결, 출처가 포함된 최신 속성을 추출한다.
  • 다운스트림 필터링을 위한 영어 대 현지 발견 가능성 프로파일을 측정하기 위해 Google Search Agent를 사용한다.
  • 실제 BD 쿼리의 시드 코퍼스를 조건으로 하는 투자자-모국어 쿼리(투자자 모국어 쿼리)들을 생성하여 현실적인 의도와 난이도 분포를 보장한다.
  • 구조화된 출처 및 속성과 함께 쿼리 기준에 따라 후보 자산을 판단하는 Criteria Match Validator Agent를 구현한다.
  • 별칭을 해결하고 고유 자산의 글로벌 저장소를 유지하기 위해 Deduplication Agent를 포함한다.
  • Coach Agent, UCB 기반 선택, 언어 병렬성, 에포크에 걸친 롤아웃/평가로 지속적인 재호출 증가를 이끄는 Bioptic Agent의 트리 기반 아키텍처를 기술한다.
  • 더 많은 컴퓨트가 더 나은 결과를 낳고, 완전성 중심의 탐색 제어와 검증이 단순한 확장된 탐색이나 합성보다 우수함을 시연한다.
Figure 1: Quality–time tradeoff for asset scouting. y-axis: F1-score (harmonic mean of precision and recall; higher is better). x-axis: wall-clock time (log scale; larger indicates longer compute). DR here stands for deep research; lang-free stands for no language parallelism.
Figure 1: Quality–time tradeoff for asset scouting. y-axis: F1-score (harmonic mean of precision and recall; higher is better). x-axis: wall-clock time (log scale; larger indicates longer compute). DR here stands for deep research; lang-free stands for no language parallelism.

실험 결과

연구 질문

  • RQ1완전성 우선의 다국어 벤치마킹 방식이 영어 중심 소스에서 대표되지 않는 자격 있는 약물 자산을 신뢰성 있게 드러낼 수 있는가?
  • RQ2Bioptic Agent가 오픈 월드 다국어 쿼리에 걸친 자산 발견에서 최첨단 상용 딥리서치 벤치마크보다 더 높은 완전성(F1)을 달성하는가?
  • RQ3언어 병렬성과 트리 기반 탐색 전략이 BD/S&E 자산 탐색에서 재현율과 정밀도에 어떤 영향을 미치는가?
  • RQ4증거 집계, 출처, 전문가 정합 검증기의 검증이 얼마나 환언을 줄이고 작업별 제약 충족을 향상시키는가?

주요 결과

  • Bioptic Agent는 완전성 벤치마크에서 79.7% F1을 달성하여 Claude Opus 4.6 (56.2%), Gemini 3 Pro + Deep Research (50.6%), OpenAI GPT-5.2 Pro (46.6%), Perplexity Deep Research (44.2%), 및 Exa Websets (26.9%)를 능가한다.
  • 추가 컴퓨트로 성능이 급격히 향상되며, 더 많은 컴퓨트가 더 나은 결과를 낳는다는 주장을 뒷받침한다.
  • 벤치마크 구성은 제어된 쿼리 의도로 열린 세계의 다국어 전체 자산 발견에 중점을 두어 영어 중심 편향을 줄이고 저평가 자산을 부각시킨다.
  • 지역 마이닝 및 다중 에이전트 파이프라인이 비영어 지역 자산을 표면화하고 출처가 풍부한 구조화된 속성 기록으로 검증한다.
  • 이 파이프라인은 엔티티 비의존적 쿼리 템플릿과 지역-언어-소스 제약을 사용하여 현직 편향과 글로벌로 확대된 자산에 대한 과다 강조를 완화한다.
  • 증거 기반 검증자와 트리 기반 자기 학습 지시가 단순한 자기 수정 루프를 넘어 지속적인 재호출 증가와 제약 충족을 이끈다.
Figure 2: Completeness Benchmark construction pipeline Top: Assets Mining the Regional News Miner Agent surfaces regional-stage drug assets from non-English sources; the Attributes Enrichment Agent validates and structures each asset; the Google Search Agent prioritizes under-the-radar assets via an
Figure 2: Completeness Benchmark construction pipeline Top: Assets Mining the Regional News Miner Agent surfaces regional-stage drug assets from non-English sources; the Attributes Enrichment Agent validates and structures each asset; the Google Search Agent prioritizes under-the-radar assets via an

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.