Skip to main content
QUICK REVIEW

[论文解读] BEND: Benchmarking DNA Language Models on biologically meaningful tasks

Frederikke Isa Marin, Felix Teufel|arXiv (Cornell University)|Nov 21, 2023
RNA and protein synthesis mechanisms参考文献 51被引用 27
一句话总结

BEND 提出一个针对人类基因组七个生物学上有意义任务的 DNA 语言模型标准化基准,评估多种语言模型与基线以评估基因组数据中的长程与稀疏信号推理能力。

ABSTRACT

The genome sequence contains the blueprint for governing cellular processes. While the availability of genomes has vastly increased over the last decades, experimental annotation of the various functional, non-coding and regulatory elements encoded in the DNA sequence remains both expensive and challenging. This has sparked interest in unsupervised language modeling of genomic DNA, a paradigm that has seen great success for protein sequence data. Although various DNA language models have been proposed, evaluation tasks often differ between individual works, and might not fully recapitulate the fundamental challenges of genome annotation, including the length, scale and sparsity of the data. In this study, we introduce BEND, a Benchmark for DNA language models, featuring a collection of realistic and biologically meaningful downstream tasks defined on the human genome. We find that embeddings from current DNA LMs can approach performance of expert methods on some tasks, but only capture limited information about long-range features. BEND is available at https://github.com/frederikkemarin/BEND.

研究动机与目标

  • 为 DNA 语言模型(LM)提供一个标准化、基于生物学的评估套件作为动机。
  • 评估当前的 DNA LMs 在捕捉长程上下文信息和稀疏调控信号方面的能力。
  • 在不同长度尺度的真实基因组任务上评估一组广泛的 LM 架构和分词方式。
  • 提供关于在预训练期间 LM 学到的基因组特征以及嵌入如何帮助下游任务的洞见。

提出的方法

  • 在人类基因组上定义七个具有生物学意义、具有不同长度尺度的下游任务进行整理。
  • 在所有任务上对六个公开的自监督 DNA LMs 以及简单基线(AWD-LSTM、膨胀卷积)进行基准测试。
  • 在冻结的 LM 嵌入之上附加一个轻量级下游 CNN 以执行任务特定预测;对于变体效应,使用嵌入空间中的零-shot 余弦相似性。
  • 通过全染色体保持分割提供数据划分(基因发现除外,那里推荐序列同一性分割)。
  • 提供一个可适应的基准框架,用于准备嵌入并训练轻量级分类器,并与任务特定的监督基线进行比较。
Figure 1: The organization of eukaryotic genomic DNA. The numbers are indicative examples for the human genome. Genes are structured as alternating introns (average: 5,400 bp) and exons (average: 170 bp), and have a promoter regulatory element before their transcription start site. Enhancer regulato
Figure 1: The organization of eukaryotic genomic DNA. The numbers are indicative examples for the human genome. Genes are structured as alternating introns (average: 5,400 bp) and exons (average: 170 bp), and have a promoter regulatory element before their transcription start site. Enhancer regulato

实验结果

研究问题

  • RQ1当前的 DNA LMs 能否捕捉下游注释任务所需的长程基因组上下文?
  • RQ2不同的预训练目标和分词策略如何影响 LMs 学到的基因组特征?
  • RQ3LM 嵌入是否在一系列基因组任务中对比任务特定基线提供一致的改进?
  • RQ4 LM 基于表示在具有稀疏信号和长程依赖性的任务(如增强子注释)上能在多大程度上提供支持?

主要发现

  • DNA LMs 在某些任务上表现出有希望的性能,接近专家方法,但没有任何 LM 在所有任务上都始终优于所有基线。
  • 长程推理仍然具有挑战性,特别是对于稀疏且距离较远的调控元件如增强子。
  • 不同 LMs 的嵌入学到了不同的基因组特征;有的捕捉基因结构信息,有的则关注非编码区域。
  • NT-MS 成为一个强默认 LM,但更短、更小的模型(如 DNABERT)在某些任务上可以超越它。
  • 在使用简单下游 CNN 的情况下,LM 嵌入在建模功能基因组数据方面往往不如针对任务的监督方法。
  • 结合简单 CNN 的 LM 嵌入在基因定位方面有帮助,能接近但未超过专门的 AUGUSTUS 表现;增强子注释仍然困难。
Figure A1: Length distribution of samples in the gene finding dataset.
Figure A1: Length distribution of samples in the gene finding dataset.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。