QUICK REVIEW

[論文レビュー] BEND: Benchmarking DNA Language Models on biologically meaningful tasks

Frederikke Isa Marin, Felix Teufel|arXiv (Cornell University)|Nov 21, 2023

RNA and protein synthesis mechanisms参考文献 51被引用数 27

ひとこと要約

BEND は、人間のゲノム上の7つの生物学的に意味のあるタスクに跨る DNA language models の標準化されたベンチマークを提案し、複数の LMs とベースラインを評価して、ゲノムデータにおける長距離推論とスパース信号推論を評価します。

ABSTRACT

The genome sequence contains the blueprint for governing cellular processes. While the availability of genomes has vastly increased over the last decades, experimental annotation of the various functional, non-coding and regulatory elements encoded in the DNA sequence remains both expensive and challenging. This has sparked interest in unsupervised language modeling of genomic DNA, a paradigm that has seen great success for protein sequence data. Although various DNA language models have been proposed, evaluation tasks often differ between individual works, and might not fully recapitulate the fundamental challenges of genome annotation, including the length, scale and sparsity of the data. In this study, we introduce BEND, a Benchmark for DNA language models, featuring a collection of realistic and biologically meaningful downstream tasks defined on the human genome. We find that embeddings from current DNA LMs can approach performance of expert methods on some tasks, but only capture limited information about long-range features. BEND is available at https://github.com/frederikkemarin/BEND.

研究の動機と目的

DNA language models (LMs) の標準化された、生物学的に根拠のある評価スイートを動機づける。
現在の DNA LMs が長距離の文脈情報とスパースな調節信号をどれだけ捉えているかを評価する。
現実的な長さスケールの多様なタスクに対して、さまざまな LM アーキテクチャとトークン化を広範に評価する。
事前学習中に LM が学習するゲノム特徴と、それらの埋め込みが下流タスクをどう支援するかについて洞察を提供する。

提案手法

人間のゲノム上で定義される、長さスケールの異なる7つの生物学的に意味のある下流タスクをキュレーションする。
6つの公開自己教師型 DNA LMs と単純なベースライン（AWD-LSTM、dilated CNN）をすべてのタスクでベンチマークする。
凍結された LM 埋め込みの上に軽量な下流 CNN を接続してタスク特有の予測を行う；バリアント効果には埋め込み空間でのゼロショットコサイン類似度を使用する。
全染色体ホールドアウトによるデータ分割を提供（遺伝子発見は例外で、配列同一性スプリットが推奨される）。
埋め込みを準備し軽量な分類器を訓練するための適応可能なベンチマークフレームワークを提供し、タスク特有の監督付きベースラインと比較する。

Figure 1: The organization of eukaryotic genomic DNA. The numbers are indicative examples for the human genome. Genes are structured as alternating introns (average: 5,400 bp) and exons (average: 170 bp), and have a promoter regulatory element before their transcription start site. Enhancer regulato

実験結果

リサーチクエスチョン

RQ1現在の DNA LMs は下流のアノテーションタスクに必要な長距離ゲノム文脈を捉えることができるか。
RQ2事前学習の目的とトークン化戦略の違いは、LM が学習するゲノム特徴にどう影響するか。
RQ3LM 埋め込みは、タスク特異的ベースラインに対して一貫した改善を、ゲノムタスクのスペクトル全体で提供するか。
RQ4LM ベースの表現は、スパース信号と長距離依存性を持つタスク（例：エンハンサーのアノテーション）をどの程度支援できるか。

主な発見

DNA LMs は一部のタスクで有望な性能を示し、専門的方法に近づくこともあるが、全タスクでベースラインをすべて上回る LM は存在しない。
長距離推論は依然として挑戦的で、特にエンハンサーのようなスパースで遠位の調節要素に対して困難。
異なる LM からの埋め込みは異なるゲノム特徴を学習する；あるものは遺伝子構造情報を捉え、他は非コード領域に焦点を当てる。
NT-MS は強力なデフォルト LM として浮上するが、短く小型なモデル（例：DNABERT）は特定のタスクでそれを上回ることがある。
LM 埋め込みは、単純な下流 CNN を用いた場合、機能ゲノミクスデータのモデリングでタスク特異的な監督法にはしばしば及ばない。
遺伝子発見は simple な CNN と組み合わせた LM 埋め込みで利益を得るが、専門の AUGUSTUS の性能には及ばず、エンハンサーのアノテーションは依然として困難。

Figure A1: Length distribution of samples in the gene finding dataset.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。