[논문 리뷰] Language models can generate molecules, materials, and protein binding sites directly in three dimensions as XYZ, CIF, and PDB files
논문은 XYZ, CIF, 및 PDB 파일에서 파생된 시퀀스에 대해 학습된 트랜스포머가 3D 분자, 결정, 및 단백질 포켓 구조를 직접 생성할 수 있으며, 최첨단 3D 생성 모델과의 차이가 없거나 근접함을 보여준다.
Language models are powerful tools for molecular design. Currently, the dominant paradigm is to parse molecular graphs into linear string representations that can easily be trained on. This approach has been very successful, however, it is limited to chemical structures that can be completely represented by a graph -- like organic molecules -- while materials and biomolecular structures like protein binding sites require a more complete representation that includes the relative positioning of their atoms in space. In this work, we show how language models, without any architecture modifications, trained using next-token prediction -- can generate novel and valid structures in three dimensions from various substantially different distributions of chemical structures. In particular, we demonstrate that language models trained directly on sequences derived directly from chemical file formats like XYZ files, Crystallographic Information files (CIFs), or Protein Data Bank files (PDBs) can directly generate molecules, crystals, and protein binding sites in three dimensions. Furthermore, despite being trained on chemical file sequences -- language models still achieve performance comparable to state-of-the-art models that use graph and graph-derived string representations, as well as other domain-specific 3D generative models. In doing so, we demonstrate that it is not necessary to use simplified molecular representations to train chemical language models -- that they are powerful generative models capable of directly exploring chemical space in three dimensions for very different structures.
연구 동기 및 목표
- 그래프/문자열을 넘어서 전체 화학 파일 포맷을 사용하여 3D 구조 생성을 탐구하도록 동기를 부여합니다.
- 다음 토큰 예측으로 트랜스포머가 XYZ, CIF, 및 PDB 데이터에서 유효한 3D 구조를 생성할 수 있음을 Demonstrate합니다.
- 3D 생성 성능을 분자, 결정, 및 단백질 포켓에 대한 그래프- 및 3D 기반의 벤치마크와 비교합니다.
- 단백질 결합 부위와 같은 대규모 생체 분자 구조로의 확장성을 평가합니다.
- 역 설계 및 더 넓은 재료 및 생체 분자 공간으로의 향후 확장에 대한 시사점을 논의합니다.
제안 방법
- 분자를 XYZ 포인트 클라우드로 표현하고, 결정은 CIF 단위 셀 및 분수 좌표로, 단백질 포켓은 PDB 잔기-원자 주석으로 표현합니다.
- 언어 모델링을 위한 시퀀스를 형성하기 위해 문자 단위 또는 원자+좌표 수준으로 토큰화합니다.
- 회전/병진 증강으로 비불변성을 완화하기 위해 이러한 시퀀스에 대한 다음 토큰 예측으로 트랜스포머(GPT 유사) 모델을 학습합니다.
- 도메인 특화 메트릭으로 유효성, 다양성 및 훈련 데이터 분포와의 유사성을 평가합니다(예: 분자에 대해 RDKit 등가체에 대한 r.m.s.d.; 결정에 대해 공분산 및 WA).
- LM이 생성한 3D 구조를 3D 벤치마크(G-Schnet, ENF, EDM) 및 그래프/SMILES-기반 언어 모델과 across 데이터셋에서 비교합니다.

실험 결과
연구 질문
- RQ1XYZ 파생 시퀀스에서 직접 유효하고 다양한 3D 분자 구조를 생성하는 것을 언어 모델이 학습할 수 있는가?
- RQ2CIF 및 PDB로 학습된 모델이 결정 및 단백질 포켓으로의 3D 생성 능력을 확장하면서 분포 일관성을 유지하는가?
- RQ33D 가능 LM은 화학 및 재료 벤치마크에서 최첨단 3D 생성 모델 및 그래프 기반 표현에 비해 어떤 성능을 보이는가?
- RQ4토큰 어휘 크기, 좌표 정밀도 등의 실용적 한계와 더 큰 생체분자 및 복잡한 재료로의 확장을 위한 잠재적 경로는 무엇인가?
주요 결과
- XYZ 시퀀스에 대해 학습된 LM은 RDKit 구성체에 대해 r.m.s.d.가 주로 1.0–2.0 범위에 위치한 고품질 3D 분자 입체구조를 생성합니다.
- 좌표 수준 토큰화(원자+좌표)는 그래프나 SMILES/SELFIES를 사용하는 벤치마크보다 동등하거나 더 나은 성능을 달성합니다.
- 결정의 경우 CIF에서의 언어 모델은 강한 유효성, 커버리지 및 특성-통계치를 달성하며 PEROV5 및 MP20 데이터셋에서 CDVAE 및 GSchNet 벤치마크에 근접하거나 일치합니다.
- 단백질 포켓의 경우 LM은 잔기-원자 조성을 가진 포켓을 생성하고, 원자 간 거리도 합리적이며, 대부분의 포켓이 유효성 검사을 통과하고 새로운 잔기 순서를 보여주는 특징이 있습니다.
- 전반적으로 아키텍처 변경 없이 LM은 분자, 결정, 포켓에 걸쳐 도메인 특화 3D 생성 모델과 경쟁할 수 있으며 더 큰 생체분자 구조로 확장 가능합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.