[论文解读] HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model
HybriDNA 引入了一个仅解码器的混合 Transformer-Mamba2 DNA 语言模型,能够在单核苷酸分辨率下处理超长DNA序列,并在DNA理解基准和生成设计任务上达到最先进的结果,且从300M到7B参数以及上下文长度达到131k标记时观察到扩展性收益。
Advances in natural language processing and large language models have sparked growing interest in modeling DNA, often referred to as the "language of life". However, DNA modeling poses unique challenges. First, it requires the ability to process ultra-long DNA sequences while preserving single-nucleotide resolution, as individual nucleotides play a critical role in DNA function. Second, success in this domain requires excelling at both generative and understanding tasks: generative tasks hold potential for therapeutic and industrial applications, while understanding tasks provide crucial insights into biological mechanisms and diseases. To address these challenges, we propose HybriDNA, a decoder-only DNA language model that incorporates a hybrid Transformer-Mamba2 architecture, seamlessly integrating the strengths of attention mechanisms with selective state-space models. This hybrid design enables HybriDNA to efficiently process DNA sequences up to 131kb in length with single-nucleotide resolution. HybriDNA achieves state-of-the-art performance across 33 DNA understanding datasets curated from the BEND, GUE, and LRB benchmarks, and demonstrates exceptional capability in generating synthetic cis-regulatory elements (CREs) with desired properties. Furthermore, we show that HybriDNA adheres to expected scaling laws, with performance improving consistently as the model scales from 300M to 3B and 7B parameters. These findings underscore HybriDNA's versatility and its potential to advance DNA research and applications, paving the way for innovations in understanding and engineering the "language of life".
研究动机与目标
- 开发一个解码器为主的DNA基础模型,将 Transformer 注意力与选择性状态空间模型(Mamba2)相结合,以在单碱基分辨率下处理超长序列。
- 在大型多物种基因组语料库上进行预训练,以学习通用的基因组表征。
- 展示用于理解任务的判别微调,以及用于设计合成调控DNA元件的生成微调。
- 研究扩展法则以及增加上下文长度对性能的影响。
提出的方法
- 混合架构:在7:1的比例下交替使用 HybriDNA Mamba2 块与 HybriDNA Transformer 块。
- HybriDNA Mamba2 块使用状态空间对偶性(SSD),将 A_t 简化为 a_t I 以提高效率,使用张量并行性并行处理。
- 在多物种基因组上的预训练,对碱基级标记(A、C、G、T)进行下一个标记预测,覆盖845个物种,总计160.75B个核苷酸(训练集)和13.25B个核苷酸(验证集)。
- 回声嵌入判别微调,以为理解任务注入未来上下文信息。
- 使用任务特定的提示标记进行生成式微调,实现受控序列生成。
- 两阶段预训练,上下文长度从 8k 逐步预热到 32k,再到 131k 标记。
实验结果
研究问题
- RQ1HybriDNA 能否在跨多物种的短程和长程 DNA 理解基准中达到最先进的性能?
- RQ2与纯 Transformer 或纯 SSM 方法相比,混合的 Transformer-Mamba2 架构是否提高了对超长 DNA 序列的效率和扩展性?
- RQ3模型规模和上下文长度如何影响性能,HybriDNA 的扩展法则是否成立?
- RQ4HybriDNA 能否跨物种生成真实、理想的顺式调控元件?
主要发现
| 类型 | 模型 | PD(H) | CPD(H) | SS(H) | TF(H) | TF(M) | EMP(Y) | CV(V) |
|---|---|---|---|---|---|---|---|---|
| Decoder | HybriDNA-300M | 83.29 | 68.87 | 87.74 | 68.37 | 75.32 | 67.38 | 73.81 |
| Decoder | HybriDNA-300M (E) | 83.67 | 69.96 | 88.72 | 69.70 | 75.73 | 68.25 | 73.90 |
| Decoder | HybriDNA-3B | 85.40 | 69.50 | 89.01 | 70.48 | 75.43 | 69.06 | 74.05 |
| Decoder | HybriDNA-3B (E) | 85.55 | 70.71 | 89.10 | 71.13 | 77.14 | 68.97 | 74.88 |
| Decoder | HybriDNA-7B | 86.53 | 71.37 | 90.09 | 70.72 | 78.02 | 63.05 | 74.02 |
| Decoder | HybriDNA-7B (E) | 88.10 | 72.03 | 90.12 | 72.01 | 79.02 | 65.30 | 74.30 |
- HybriDNA 在33个DNA理解数据集上实现最先进的性能,结合回声嵌入微调可达到35个。
- 参数从3亿到3B再到7B的扩展,在基准上带来持续的性能提升。
- 长上下文处理(高达131k标记)提升了长程任务的性能。
- HybriDNA 在设计合成性 CRE(如酵母启动子和细胞类型特异性的人类增强子)方面展示了强大的生成能力。
- 回声嵌入提升理解任务的判别性能。
- 带回声嵌入的模型变体在若干任务上显示出改进的指标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。