Skip to main content
QUICK REVIEW

[논문 리뷰] METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Ollie Liu, Sami Jaghouar|arXiv (Cornell University)|2025. 01. 03.
Genetics, Bioinformatics, and Biomedical Research인용 수 3
한 줄 요약

METAGENE-1은 7B decoder-only transformer를 1.5 trillion base pairs의 metagenomic wastewater sequences에 대해 사전 학습하여 병원체 탐지, metagenomic embedding, 그리고 팬데믹 모니터링을 위한 이상 탐지를 가능하게 한다. 이는 genomic benchmarks 및 downstream public-health tasks에서 최첨단 성능을 달성한다.

ABSTRACT

We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer model, which we refer to as a metagenomic foundation model, on a novel corpus of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base pairs. This dataset is sourced from a large collection of human wastewater samples, processed and sequenced using deep metagenomic (next-generation) sequencing methods. Unlike genomic models that focus on individual genomes or curated sets of specific species, the aim of METAGENE-1 is to capture the full distribution of genomic information present within this wastewater, to aid in tasks relevant to pandemic monitoring and pathogen detection. We carry out byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic sequences, and then pretrain our model. In this paper, we first detail the pretraining dataset, tokenization strategy, and model architecture, highlighting the considerations and design choices that enable the effective modeling of metagenomic data. We then show results of pretraining this model on our metagenomic dataset, providing details about our losses, system metrics, and training stability over the course of pretraining. Finally, we demonstrate the performance of METAGENE-1, which achieves state-of-the-art results on a set of genomic benchmarks and new evaluations focused on human-pathogen detection and genomic sequence embedding, showcasing its potential for public health applications in pandemic monitoring, biosurveillance, and early detection of emerging health threats.

연구 동기 및 목표

  • diverse wastewater sequencing data로 훈련된 metagenomic foundation model의 사용을 촉진하여 광범위한 microbiome 분포를 포착한다.
  • 데이터세트 생성, 토크나이제이션, 그리고 metagenomic 데이터에 맞춘 decoder-only transformer 아키텍처를 기술한다.
  • METAGENE-1을 병원체 탐지, 유전체 임베딩, 그리고 유전체 수준 벤치마크에서 평가한다.
  • 하수처리 기반 이상 탐지를 포함한 다운스트림 응용 및 잠재적 공중 보건 활용 사례를 입증한다.

제안 방법

  • metagenomic DNA/RNA 말뭉치에 대해 1.5 trillion base pairs를 초과하는 7-billion-parameter autoregressive transformer (decoder-only)를 사전 학습한다.
  • 시퀀스를 1,024-token 어휘를 가진 바이트 페어 인코딩(BPE)으로 토크나이즈하여 ~370 billion tokens를 생성한다.
  • 512-token 컨텍스트를 사용하고 packed reads 및 cross-read attention을 방지하는 어텐션 마스크를 갖춘 채로 훈련한다.
  • dense transformer 아키텍처를 사용하되 32 layers, 32 heads, embedding size 4096, RMSNorm을 적용하고 Adam류 설정과 코사인 학습률 스케줄로 최적화한다.
  • 일부 알려진 종의 게놈 데이터를 1:8 비율로 혼합하여 일반화를 확장하는 지속적 사전 학습을 수행한다.
  • 병원체 탐지 MCC 벤치마크, Genomic Embedding (Gene-MTEB) 작업, Genome Understanding Evaluation (GUE) 하위작업으로 평가하고 임베딩 품질 및 이상 탐지를 평가한다.
Figure 2 : Overview of the metagenomic data collection and sequencing pipeline for model pretraining . The process begins with the collection of wastewater (left), which contains genomic fragments from a diverse collection ( e.g. , tens of thousands) of constituent organisms (center). These samples
Figure 2 : Overview of the metagenomic data collection and sequencing pipeline for model pretraining . The process begins with the collection of wastewater (left), which contains genomic fragments from a diverse collection ( e.g. , tens of thousands) of constituent organisms (center). These samples

실험 결과

연구 질문

  • RQ1METAGENE-1이 다양한 시퀀싱 전달에서 인간 병원체를 신뢰성 있게 탐지할 수 있는가?
  • RQ2하수에서 학습된 metagenomic 표현이 종 간 임베딩 및 분류 작업으로 일반화되는가?
  • RQ3METAGENE-1의 표준 게놈 벤치마크 성능은 이전의 다종 모델과 비교해 어떤가?
  • RQ4METAGENE-1이 wastewater 기반 감시 및 조기 위협 탐지를 위한 이상 탐지를 지원할 수 있는가?

주요 결과

  • METAGENE-1은 네 가지 데이터세트에서 병원체 탐지 벤치마크에서 지속적으로 경쟁 모델을 능가하며 MCC 이득을 3–17포인트 달성한다.
  • Genomic Embedding 작업에서 METAGENE-1은 최고 글로벌 평균을 달성하고 Human-Virus 및 관련 하위 작업에서 강한 성능을 보인다.
  • Genome Understanding Evaluation에서 METAGENE-1은 28개 하위작업 중 13개를 상회하며 특히 Epigenetic Marks Prediction(EMP)에서 두드러진 성과를 보였고 프로모터 관련 작업에서의 개선 여지가 남아 있다.
  • Gene-MTEB 임베딩 결과는 제로샷 표현이 견고하며, 특히 Human-Virus 작업에서 여러 지표에서 베이스라인 모델보다 6포인트 이상의 정확도 차이를 보인다.
  • 길이 표준화된 교차 엔트로피 손실을 사용하는 이상 탐지 실험은 메타게놈 데이터와 비메타게놈 데이터를 명확히 구분하는 결과를 보여주며, wastewater OOD 탐지의 잠재력을 시사한다.
Figure 3 : Metagenomic composition of the METAGENE-1 pretraining dataset, estimated via Kraken 2 (Wood et al., 2019 ) sequence classification, and visualized via Krona (Ondov et al., 2011 ) . See Figure 7 for a more-detailed view.
Figure 3 : Metagenomic composition of the METAGENE-1 pretraining dataset, estimated via Kraken 2 (Wood et al., 2019 ) sequence classification, and visualized via Krona (Ondov et al., 2011 ) . See Figure 7 for a more-detailed view.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.