Skip to main content
QUICK REVIEW

[論文レビュー] METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Ollie Liu, Sami Jaghouar|arXiv (Cornell University)|Jan 3, 2025
Genetics, Bioinformatics, and Biomedical Research被引用数 3
ひとこと要約

METAGENE-1はパンデミック監視のため病原体検出、メタゲノム埋め込み、異常検知を可能にする、1.5兆塩基ペアのメタゲノム廃水配列上で訓練された7Bデコーダー専用トランスフォーマーを事前訓練した。ゲノムベンチマークと下流の公衆衛生タスクで最先端の結果を達成。

ABSTRACT

We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer model, which we refer to as a metagenomic foundation model, on a novel corpus of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base pairs. This dataset is sourced from a large collection of human wastewater samples, processed and sequenced using deep metagenomic (next-generation) sequencing methods. Unlike genomic models that focus on individual genomes or curated sets of specific species, the aim of METAGENE-1 is to capture the full distribution of genomic information present within this wastewater, to aid in tasks relevant to pandemic monitoring and pathogen detection. We carry out byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic sequences, and then pretrain our model. In this paper, we first detail the pretraining dataset, tokenization strategy, and model architecture, highlighting the considerations and design choices that enable the effective modeling of metagenomic data. We then show results of pretraining this model on our metagenomic dataset, providing details about our losses, system metrics, and training stability over the course of pretraining. Finally, we demonstrate the performance of METAGENE-1, which achieves state-of-the-art results on a set of genomic benchmarks and new evaluations focused on human-pathogen detection and genomic sequence embedding, showcasing its potential for public health applications in pandemic monitoring, biosurveillance, and early detection of emerging health threats.

研究の動機と目的

  • diverseな廃水シーケンスデータで学習したメタゲノム基盤モデルの使用を動機づけ、広範なマイクロバイオーム分布を捉える。
  • データセット作成、トークン化、メタゲノムデータに合わせたデコーダー専用トランスフォーマーアーキテクチャを説明。
  • METAGENE-1を病原体検出、ゲノム埋め込み、ゲノム全体ベンチマークで評価。
  • 廃水の異常検知を含む下流応用と公衆衛生の利用ケースを示す。

提案手法

  • データ総計が1.5兆塩基ペアを超えるメタゲノムDNA/RNAコーパス上で7億パラメータの自己回帰トランスフォーマー(デコーダー専用)を事前訓練。
  • シーケンスを1,024トークン語彙のBPEでトークン化し、約3.7e11トークンを生成。
  • 512トークン文脈で読み取りをパックし、読み取り間の注意を防ぐアテンションマスクを用いる。
  • 32層・32ヘッド・埋め込みサイズ4096・RMSNormを用いた密なトランスフォーマーアーキテクチャを採用し、Adam風設定とコサイン学習率スケジュールで最適化。
  • 既知種のゲノムデータを1:8の比率で混ぜて継続的事前訓練を実施し、一般化を拡張。
  • 病原体検出 MCCベンチマーク、Genomic Embedding (Gene-MTEB) タスク、Genome Understanding Evaluation (GUE) のサブタスクで評価し、埋め込み品質と異常検知を評価。
Figure 2 : Overview of the metagenomic data collection and sequencing pipeline for model pretraining . The process begins with the collection of wastewater (left), which contains genomic fragments from a diverse collection ( e.g. , tens of thousands) of constituent organisms (center). These samples
Figure 2 : Overview of the metagenomic data collection and sequencing pipeline for model pretraining . The process begins with the collection of wastewater (left), which contains genomic fragments from a diverse collection ( e.g. , tens of thousands) of constituent organisms (center). These samples

実験結果

リサーチクエスチョン

  • RQ1METAGENE-1は多様なシーケンスデリバリにおいて人獣病原体を信頼性高く検出できるか。
  • RQ2廃水から学習したメタゲノム表現は、種をまたいだ埋め込み・分類タスクへ一般化するか。
  • RQ3従来の多種間モデルと比較して、標準的なゲノムベンチマークにおけるMETAGENE-1の性能はどうか。
  • RQ4METAGENE-1は廃水ベースの監視の異常検知と初期脅威検出をサポートできるか。

主な発見

  • METAGENE-1は病原体検出ベンチマークの4データセット全体で競合モデルを一貫して上回り、MCCの利得を3〜17ポイント達成。
  • Genomic Embeddingタスクで最高のグローバル平均を達成し、Human-Virusおよび関連サブタスクで強い性能を示す。
  • Genome Understanding Evaluationでは28サブタスク中13をトップ、特にエピジェネティックマーク予測(EMP)で卓越する一方、プロモーター関連タスクには改善余地を指摘。
  • Gene-MTEB埋め込みはゼロショット表現が堅牢で、特にHuman-Virusタスクで複数の指標でベースラインモデルを6以上の精度ポイント上回る。
  • 長さ正規化クロスエントロピー損失を用いた異常検知実験は、メタゲノムデータと非メタゲノムデータの明確な分離を示し、廃水のOOD検出の潜在性を示唆。
Figure 3 : Metagenomic composition of the METAGENE-1 pretraining dataset, estimated via Kraken 2 (Wood et al., 2019 ) sequence classification, and visualized via Krona (Ondov et al., 2011 ) . See Figure 7 for a more-detailed view.
Figure 3 : Metagenomic composition of the METAGENE-1 pretraining dataset, estimated via Kraken 2 (Wood et al., 2019 ) sequence classification, and visualized via Krona (Ondov et al., 2011 ) . See Figure 7 for a more-detailed view.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。