Skip to main content
QUICK REVIEW

[論文レビュー] GENERator: A Long-Context Generative Genomic Foundation Model

Wei Wu, Qiuyi Li|ArXiv.org|Feb 11, 2025
Gene expression and cancer classification被引用数 6
ひとこと要約

GENERatorは1.2Bパラメータの生成型ゲノム基盤モデルで、98k塩基対の文脈、386B bpの真核生物DNAでトレーニングされ、ゲノムベンチマークで最先端を達成し、セントラルドグマに沿ったタンパク質コード化とプロモータ設計を可能にする。

ABSTRACT

The rapid advancement of DNA sequencing has produced vast genomic datasets, yet interpreting and engineering genomic function remain fundamental challenges. Recent large language models have opened new avenues for genomic analysis, but existing approaches are often limited by restricted training scope, constrained generative capability, or prohibitive computational cost. We introduce GENErator, a generative genomic foundation model for long-context DNA modeling, with a context length of 98k nucleotides, pre-trained on 386 billion nucleotides of eukaryotic DNA. Without task-specific fine-tuning, GENERator exhibits strong intrinsic capabilities: unsupervised embedding analyses reveal phylogenetically coherent structure, and sequence recovery benchmarks demonstrate generative accuracy comparable to or exceeding state-of-the-art models with substantially improved computational efficiency. In a zero-shot setting, GENERator achieves competitive variant effect prediction performance relative to alignment-based methods, while remaining fully alignment-free and broadly applicable across species. With task-specific fine-tuning, the model attains leading performance on established genomic benchmarks. We further demonstrate practical generative applications. GENERator can generate protein-coding DNA sequences that translate into structurally plausible proteins and, through a prompt-guided design framework, design cis-regulatory elements with targeted activity profiles, including synthetic super-enhancers validated by high-throughput UMI-STARR-seq assays. Together, these results establish GENERator as an efficient and biologically grounded framework for genomic interpretation and programmable sequence design. Code and supplementary resources are available at https://github.com/GenerTeam/GENERator.

研究の動機と目的

  • DNAデータに特化した長い文脈の生成型基盤モデルによるゲノム配列モデリングを前進させる。
  • 確立済みおよび新規提案されたゲノムベンチマークで最先端の性能を示す。
  • 既知のタンパク質ファミリーに翻訳されるタンパク質コード領域を生成することで、セントラルドドクマとの整合性を示す。
  • 活性ターゲティングを伴うプロンプト応答型のプロモーターデザインを含むシーケンス設計機能を探る。
  • 長距離ゲノム理解を最大化するトレーニング戦略とトークナイザの選択を検討する。

提案手法

  • Llamaに触発された26層、隠れ層サイズ2,048のトランスフォーマー・デコーダーアーキテクチャを使用する。
  • RefSeqからの真核生物DNAの386Bヌクレオチドを対象に、次トークン予測(NTP)用の6-merトークナイザを用いて事前学習する。
  • 遺伝子配列の学習と全配列の学習を比較し、意味的に豊かな領域を下流タスクに対してより効果的であると特定する。
  • 長文脈データを効率的に扱う技術(Flash Attention、Zero Redundancy Optimizer)を採用し、頑健性を高めるためにランダム化されたトークン化開始点を導入する。
  • Genomic Benchmarks、NTタスク、および遺伝子/分類学的分類と次のK-mer予測を含む新しいGenerタスクを含む評価を行い、セントラルドグマとプロモータ設計タスクを分析する。
  • 詳細なアーキテクチャ仕様を提供(例:26層、隠れサイズ2048、ボキャブラリ数4128、文脈長16384トークンは98,304 bpに対応)と学習設定(バッチサイズ2Mトークン、6エポック、AdamW、コサインウォームアップ)。
Figure 1: Overview of the Gener ator . (A) The pre-training dataset of the Gener ator encompasses a diverse range of eukaryotic organisms and gene types, totaling 386B nucleotides. (B) The pre-training employs the next token prediction (NTP) task, utilizing a 6-mer tokenizer. (C) Model comparison re
Figure 1: Overview of the Gener ator . (A) The pre-training dataset of the Gener ator encompasses a diverse range of eukaryotic organisms and gene types, totaling 386B nucleotides. (B) The pre-training employs the next token prediction (NTP) task, utilizing a 6-mer tokenizer. (C) Model comparison re

実験結果

リサーチクエスチョン

  • RQ1GENERatorは複数のゲノムベンチマークとタスクで最先端の性能を達成できるか?
  • RQ2トークナイザーの選択(6-mer)が、因果DNA言語モデルにおける次トークン予測に、BPEや単一ヌクレオチド・トークナイザーと比べてどのような影響を与えるか?
  • RQ3意味的に豊かな遺伝子領域での学習は、下流のゲノムタスクにおいて全ゲノム学習より優れているか?
  • RQ4モデルはターゲットファミリ内のタンパク質へ翻訳されるタンパク質コードDNA配列を生成できるか(セントラルドグマの整合性)?
  • RQ5GENERatorはプロンプト応答型の活性ターゲティングによるプロモーターデザインなどの配列設計を、どの程度支援できるか?

主な発見

  • Genomic Benchmarks、NTタスク、および新たに提案されたGenerタスクで最先端の性能を達成。
  • 98k bpの文脈を用い1.2Bパラメータで、NT-multi、Enformer、GROVER、HyenaDNA、Caduceusなどのベースラインを主要タスクで上回る。
  • 遺伝子配列学習(意味的に豊かな領域に焦点を当てる) は、複数の分類群にわたる下流タスクで全配列学習を上回る。
  • セントラルドグマの整合性を示すため、既知のファミリーと構造的に類似するタンパク質へ翻訳されるタンパク質コードDNA配列を生成し、それらの折りたたみ性(AlphaFold)と分布的パープレキシティ(Progen2)を評価。
  • DeepSTARRプロモーターデータセットを用いた、プロンプト応答型の活性ターゲティングによるプロモータ設計能力を示し、制御された配列最適化を実現。
Figure 2: Evaluation of next K-mer prediction. (A) Accuracy of the next K-mer prediction task across various tokenizers and input token lengths. (B) Comparison of the Gener ator against baseline models on a dataset comprised exclusively mammalian DNA.
Figure 2: Evaluation of next K-mer prediction. (A) Accuracy of the next K-mer prediction task across various tokenizers and input token lengths. (B) Comparison of the Gener ator against baseline models on a dataset comprised exclusively mammalian DNA.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。