Skip to main content
QUICK REVIEW

[論文レビュー] Language models can generate molecules, materials, and protein binding sites directly in three dimensions as XYZ, CIF, and PDB files

Daniel Flam-Shepherd, Alán Aspuru‐Guzik|arXiv (Cornell University)|May 9, 2023
Machine Learning in Materials Science被引用数 21
ひとこと要約

本論文は、XYZ、CIF、およびPDBファイルから派生したシーケンスで訓練されたトランスフォーマーが、アーキテクチャの変更なしで、3D分子・結晶・タンパク質ポケット構造を直接生成できることを示し、最先端の3D生成モデルと同等またはそれに近い性能を達成する。

ABSTRACT

Language models are powerful tools for molecular design. Currently, the dominant paradigm is to parse molecular graphs into linear string representations that can easily be trained on. This approach has been very successful, however, it is limited to chemical structures that can be completely represented by a graph -- like organic molecules -- while materials and biomolecular structures like protein binding sites require a more complete representation that includes the relative positioning of their atoms in space. In this work, we show how language models, without any architecture modifications, trained using next-token prediction -- can generate novel and valid structures in three dimensions from various substantially different distributions of chemical structures. In particular, we demonstrate that language models trained directly on sequences derived directly from chemical file formats like XYZ files, Crystallographic Information files (CIFs), or Protein Data Bank files (PDBs) can directly generate molecules, crystals, and protein binding sites in three dimensions. Furthermore, despite being trained on chemical file sequences -- language models still achieve performance comparable to state-of-the-art models that use graph and graph-derived string representations, as well as other domain-specific 3D generative models. In doing so, we demonstrate that it is not necessary to use simplified molecular representations to train chemical language models -- that they are powerful generative models capable of directly exploring chemical space in three dimensions for very different structures.

研究の動機と目的

  • グラフ/文字列を超える3D構造生成を、完全な化学ファイル形式の使用で促進することを動機づける。
  • トランスフォーマーのnext-token予測が、XYZ、CIF、およびPDBデータから有効な3D構造を生成できることを示す。
  • 分子、結晶、タンパク質ポケットに対するグラフおよび3Dベースのベースラインと比較して、3D生成性能を評価する。
  • タンパク質結合部位のような大規模な生体分子構造へのスケーラビリティを評価する。
  • 逆設計への示唆と、より広い材料・生体分子空間への拡張に向けた今後の展開を論じる。

提案手法

  • 分子をXYZ点群として、結晶をCIF単位セルと分数座標で、タンパク質ポケットをPDB残基-原子アノテーションで表現する。
  • 言語モデリングのシーケンスを作成するために、文字レベルまたは原子+座標レベルのトークン化を行う。
  • 回転・平行移動の不変性を緩和するためのaugmentationとともに、次トークン予測を用いたTransformer(GPT系)モデルを訓練する。
  • 分野特有の指標(例:分子のRDKitコンフォマーとのr.m.s.d.、結晶の共分散とWA)を用いて、有効性、多様性、訓練データとの分布類似性を評価する。
  • LMが生成した3D構造を、3Dベースライン(G-Schnet、ENF、EDM)およびグラフ/SMILESベースの言語モデルと比較する。
Figure 1: A) The training datasets of structures that we benchmark language models on in this work. B) The overview of the training workflow – chemical file formats are converted to sequences of tokens using either character or coordinate-level tokenization. The language model is trained to predict
Figure 1: A) The training datasets of structures that we benchmark language models on in this work. B) The overview of the training workflow – chemical file formats are converted to sequences of tokens using either character or coordinate-level tokenization. The language model is trained to predict

実験結果

リサーチクエスチョン

  • RQ1XYZ由来のシーケンスから有効で多様な3D分子構造を直接生成することを言語モデルは学習できるか?
  • RQ2CIFとPDBで訓練されたモデルは、結晶およびタンパク質ポケットへの3D生成能力を拡張しつつ、分布忠実度を維持できるか?
  • RQ33D対応LMは、化学および材料のベンチマークにおいて、最先端の3D生成モデルおよびグラフベース表現とどう比較されるか?
  • RQ4トークン語彙サイズ、座標の精度などの現実的な制限は何か、より大きな生体分子や複雑な材料へのスケーリングの潜在的な道は何か?

主な発見

  • XYZシーケンスで訓練されたLMは、RDKitコンフォマーに対してr.m.s.d.が主に1.0~2.0の範囲で高品質の3D分子立体構造を生成する。
  • 座標レベルのトークン化(原子+座標)は、グラフやSMILES/SELFIESを用いるベースラインと同等以上の性能を達成する。
  • 結晶については、CIF上の言語モデルが強い有効性・カバレッジ・特性統計を達成し、PEROV5およびMP20データセットでCDVAEやGSchNetのベースラインに近づくまたは一致する。
  • タンパク質ポケットでは、LMは残基-原子組成と現実的な原子間距離を持つポケットを生成でき、多くのポケットが有効性チェックを通過し、新規な残基順序を示す。
  • 総じて、アーキテクチャ変更なしのLMは、分子・結晶・ポケットの領域でドメイン特化型3D生成モデルと競合し、大規模な生体分子構造へのスケーリングも可能である。
Figure 2: A histogram of root mean squared deviations in atomic positions between 10K molecules sampled from the language model and their corresponding conformers generated by rdkit. Six example molecules and geometries with various r.m.s.d. values are visualized explicitly and compared with their r
Figure 2: A histogram of root mean squared deviations in atomic positions between 10K molecules sampled from the language model and their corresponding conformers generated by rdkit. Six example molecules and geometries with various r.m.s.d. values are visualized explicitly and compared with their r

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。