Skip to main content
QUICK REVIEW

[論文レビュー] Hunt Globally: Wide Search AI Agents for Drug Asset Scouting in Investing, Business Development, and Competitive Intelligence

A I Vinogradova, В. М. Виноградов|arXiv (Cornell University)|Feb 16, 2026
Computational Drug Discovery Methods被引用数 0
ひとこと要約

論文は Bioptic Agent(木構造ベースの多言語AIシステム)と、グローバルな薬物資産スカウトのためのCompleteness-Firstベンチマークを提示。多言語ソース全体で徹底的かつ幻覚のない発見を強調することで、いくつかの商用ベースラインより高いF1を達成。

ABSTRACT

Bio-pharmaceutical innovation has shifted: many new drug assets now originate outside the United States and are disclosed primarily via regional, non-English channels. Recent data suggests that over 85% of patent filings originate outside the U.S., with China accounting for nearly half of the global total. A growing share of scholarly output is also non-U.S. Industry estimates put China at 30% of global drug development, spanning 1,200+ novel candidates. In this high-stakes environment, failing to surface "under-the-radar" assets creates multi-billion-dollar risk for investors and business development teams, making asset scouting a coverage-critical competition where speed and completeness drive value. Yet today's Deep Research AI agents still lag human experts in achieving high recall discovery across heterogeneous, multilingual sources without hallucination. We propose a benchmarking methodology for drug asset scouting and a tuned, tree-based self-learning Bioptic Agent aimed at complete, non-hallucinated scouting. We construct a challenging completeness benchmark using a multilingual multi-agent pipeline: complex user queries paired with ground-truth assets that are largely outside U.S.-centric radar. To reflect real-deal complexity, we collected screening queries from expert investors, BD, and VC professionals and used them as priors to conditionally generate benchmark queries. For grading, we use LLM-as-judge evaluation calibrated to expert opinions. On this benchmark, our Bioptic Agent achieves 79.7% F1 score, outperforming Claude Opus 4.6 (56.2%), Gemini 3 Pro + Deep Research (50.6%), OpenAI GPT-5.2 Pro (46.6%), Perplexity Deep Research (44.2%), and Exa Websets (26.9%). Performance improves steeply with additional compute, supporting the view that more compute yields better results.

研究の動機と目的

  • グローバルで非英語偏重のイノベーション環境におけるBD/S&Eの広範囲・多言語薬物資産スカウトの必要性を動機付け、 formalize(正式化)する。
  • 方法によるバイアスを減らしオープンワールド資産発見を評価する、Completeness指向のベンチマーク手法を開発する。
  • 言語間の幻覚を抑えつつ、完全な資産発見を最適化する木構造ベースの自己学習システムであるBioptic Agentを提案・評価する。
  • より多い計算資源と言語並列探索が広範で高リコールな資産識別を改善することを示す。
  • 証拠の統合、出典、専門家 alignedバリデーションがBDグレードのスカウト品質を向上させることを強調する。

提案手法

  • 薬物資産スカウトのための地域的に連携したCompletenessベンチマークを構築し、真の資産をUS以外の地域ソースから引き出す。
  • Regional News Minerを導入し、地域言語・ソースの組を元に資産を収集し、正準リンクを有する候補資産を作成する。
  • Attributes Enrichment Agentによって mined assets を充実させ、有効性を検証し、別名を解決し、出典を含む最新属性を取得する。
  • Google Search Agentを用いて下流のフィルタリングのために英語と現地語の発見性プロファイルを測定する。
  • 実在のBDクエリのシードコーパスを前提に投資家向けのネイティブなクエリを生成し、現実的な意図と難易度分布を確保する。
  • Criteria Match Validator Agentを実装し、候補資産をクエリ基準と照合して構造化された出典と属性を用いて評価する。
  • Deduplication Agentを組み込み、別名を解消し、グローバルなユニーク資産ストアを維持する。
  • Bioptic Agentの木構造アーキテクチャを、Coach Agent、UCB駆動の選択、言語並列性、エポックごとのロールアウト/評価を含めて説明し、持続的リコール成長を図る。
  • より多くの計算資源がより良い結果を生み、Completeness重視の探索管理と検証が単なるブラウジングや合成より優れていることを示す。
Figure 1: Quality–time tradeoff for asset scouting. y-axis: F1-score (harmonic mean of precision and recall; higher is better). x-axis: wall-clock time (log scale; larger indicates longer compute). DR here stands for deep research; lang-free stands for no language parallelism.
Figure 1: Quality–time tradeoff for asset scouting. y-axis: F1-score (harmonic mean of precision and recall; higher is better). x-axis: wall-clock time (log scale; larger indicates longer compute). DR here stands for deep research; lang-free stands for no language parallelism.

実験結果

リサーチクエスチョン

  • RQ1Completeness-firstで多言語のベンチマーク手法が、英語中心 Sources に過小評価されている適格な薬物資産を信頼性高く浮上させられるか?
  • RQ2Bioptic Agentはオープンワールド、多言語クエリにおける資産発見のCompleteness(F1)で最先端の商用ディープリサーチベースラインを上回るか?
  • RQ3言語並列性と木構造探索戦略はBD/S&E資産スカウトにおけるリコールと精度にどのような影響を及ぼすか?
  • RQ4証拠の集約、出典、専門家に整合した検証が幻覚を抑え、タスク固有の制約達成を改善する程度はどれくらいか?

主な発見

  • Bioptic AgentはCompletenessベンチマークで79.7%のF1を達成し、Claude Opus 4.6 (56.2%)、Gemini 3 Pro + Deep Research (50.6%)、OpenAI GPT-5.2 Pro (46.6%)、Perplexity Deep Research (44.2%)、Exa Websets (26.9%) を上回った。
  • 追加の計算資源によりパフォーマンスが急激に向上することを示し、より多くの計算がより良い結果を生むという主張を裏付ける。
  • ベンチマーク構築はオープンワールド・多言語のfind-all資産発見を強調し、英語偏重のバイアスを低減し、潜在的に見落とされがちな資産を浮かび上がらせる。
  • 地域的ミiningと多-agent パイプラインが非英語圏の地域資産を浮かび上がらせ、出典に富む構造化属性レコードで検証する。
  • パイプラインはエンティティ非依存のクエリテンプレートと地域言語ソース制約を用い、現職バイアスとグローバルに拡大された資産への過度の強調を緩和する。
  • 証拠に基づく検証者と木構造自己学習指示が、単純な自己訂正ループを超えた持続的リコール成長と制約満足を導く。
Figure 2: Completeness Benchmark construction pipeline Top: Assets Mining the Regional News Miner Agent surfaces regional-stage drug assets from non-English sources; the Attributes Enrichment Agent validates and structures each asset; the Google Search Agent prioritizes under-the-radar assets via an
Figure 2: Completeness Benchmark construction pipeline Top: Assets Mining the Regional News Miner Agent surfaces regional-stage drug assets from non-English sources; the Attributes Enrichment Agent validates and structures each asset; the Google Search Agent prioritizes under-the-radar assets via an

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。