[论文解读] GENERator: A Long-Context Generative Genomic Foundation Model
GENERATOR 是一个拥有 1.2B 参数的生成型基因组基础模型,具备 98k base-pair 的上下文长度,在 386B bp 的真核生物DNA 上进行训练,在基因组基准测试中达到最先进水平,并实现与中心法则对齐的蛋白编码与启动子设计。
The rapid advancement of DNA sequencing has produced vast genomic datasets, yet interpreting and engineering genomic function remain fundamental challenges. Recent large language models have opened new avenues for genomic analysis, but existing approaches are often limited by restricted training scope, constrained generative capability, or prohibitive computational cost. We introduce GENErator, a generative genomic foundation model for long-context DNA modeling, with a context length of 98k nucleotides, pre-trained on 386 billion nucleotides of eukaryotic DNA. Without task-specific fine-tuning, GENERator exhibits strong intrinsic capabilities: unsupervised embedding analyses reveal phylogenetically coherent structure, and sequence recovery benchmarks demonstrate generative accuracy comparable to or exceeding state-of-the-art models with substantially improved computational efficiency. In a zero-shot setting, GENERator achieves competitive variant effect prediction performance relative to alignment-based methods, while remaining fully alignment-free and broadly applicable across species. With task-specific fine-tuning, the model attains leading performance on established genomic benchmarks. We further demonstrate practical generative applications. GENERator can generate protein-coding DNA sequences that translate into structurally plausible proteins and, through a prompt-guided design framework, design cis-regulatory elements with targeted activity profiles, including synthetic super-enhancers validated by high-throughput UMI-STARR-seq assays. Together, these results establish GENERator as an efficient and biologically grounded framework for genomic interpretation and programmable sequence design. Code and supplementary resources are available at https://github.com/GenerTeam/GENERator.
研究动机与目标
- 以面向 DNA 数据的长上下文生成型基础模型推进基因组序列建模。
- 在既定和新提出的基因组基准测试中展示最先进的性能。
- 通过产生可翻译为已知蛋白家族的蛋白编码序列,展示与中心法则的对齐。
- 探索序列设计能力,包括对提示响应的启动子设计及活性目标设定。
- 研究能最大化长程基因组理解的训练策略与分词器选择。
提出的方法
- 采用受 Llama 启发的解码器架构,26 层,隐藏维度为 2,048。
- 以 RefSeq 的 386B 个真核生物 DNA 碱基对进行预训练,使用 6-mer 分词器进行下一个符号预测(NTP)。
- 比较基因序列训练与全序列训练,并识别语义丰富区域在下游任务中的效果。
- 采用高效处理长上下文数据的技术(Flash Attention、Zero Redundancy Optimizer),并引入起始点随机分词以提升鲁棒性。
- 在 Genomic Benchmarks、NT 任务以及新的 Gener 任务(包括基因/分类和下一个 K-mer 预测)上进行评估;分析中心法则与启动子设计任务。
- 提供详细的体系结构规格(如 26 层、隐藏维度 2048、词汇表 4128、上下文长度 16384 tokens,对应 98,304 bp)以及训练设置(批量大小 2M tokens、6 次训练轮、AdamW、余弦预热)。

实验结果
研究问题
- RQ1GENERATOR 是否能够在多项基因组基准与任务上达到最先进水平?
- RQ2在因果 DNA 语言模型中,6-mer 分词器的选择与 BPE 或单核苷酸分词器相比,对下一个符号预测有何影响?
- RQ3在基因区域(语义丰富数据)上的训练是否优于全基因组训练在下游基因组任务中的表现?
- RQ4模型是否能够生成翻译成目标家族蛋白的蛋白编码 DNA 序列,从而实现中心法则的对齐?
- RQ5在序列设计方面,GENERATOR 在具备对提示的活性目标的启动子设计等方面能提供多大帮助?
主要发现
- 在 Genomic Benchmarks、NT 任务以及新提出的 Gener 任务上达到最先进水平。
- 以 98k bp 的上下文和 1.2B 参数为基础,超越 NT-multi、Enformer、GROVER、HyenaDNA、Caduceus 等基线,在关键任务上表现更优。
- 基因序列训练(聚焦于语义丰富区域)在多种分类群的下游任务上优于全序列训练。
- 通过生成可翻译成与已知家族在结构上相类似的蛋白的蛋白编码 DNA 序列,展示中心法则对齐,并评估其折叠性(AlphaFold)与分布式困惑度(Progen2)。
- 展示在 DeepSTARR 启动子数据集上进行提示响应的活性定向设计能力,实现对序列的有控优化。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。