[논문 리뷰] Crystal Structure Generation with Autoregressive Large Language Modeling
CrystaLLM은 CIF 텍스트에서 자 autoregressive Transformer를 학습하여 그럴듯한 무기질 결정 구조를 생성하고, 에너지 예측기를 활용한 MCTS 가이드 정제를 통해 구조의 품질과 현실감을 개선한다. 보이지 않는 화식에 일반화하고 CSP 벤치마크에서 확산/ VAE 기반 베이스라인과 비교하여 우수한 성능을 보인다.
The generation of plausible crystal structures is often the first step in predicting the structure and properties of a material from its chemical composition. Quickly generating and predicting inorganic crystal structures is important for the discovery of new materials, which can target applications such as energy or electronic devices. However, most current methods for crystal structure prediction are computationally expensive, slowing the pace of innovation. Seeding structure prediction algorithms with quality generated candidates can overcome a major bottleneck. Here, we introduce CrystaLLM, a methodology for the versatile generation of crystal structures, based on the autoregressive large language modeling (LLM) of the Crystallographic Information File (CIF) format. Trained on millions of CIF files, CrystaLLM focuses on modeling crystal structures through text. CrystaLLM can produce plausible crystal structures for a wide range of inorganic compounds unseen in training, as demonstrated by ab initio simulations. The integration with predictors of formation energy permits the use of a Monte Carlo Tree Search algorithm to improve the generation of meaningful structures. Our approach challenges conventional representations of crystals, and demonstrates the potential of LLMs for learning effective 'world models' of crystal chemistry, which will lead to accelerated discovery and innovation in materials science.
연구 동기 및 목표
- 빠르고 유연한 무기질 결정 구조의 합리적 생성 Motivating rapid, flexible generation of plausible inorganic crystal structures to accelerate CSP workflows.
- 결정 구조를 CIF 형식의 토큰 시퀀스로 다루고 결정 화학의 월드-모델을 학습하는 모델 개발
- 미지의 구조 생성을 입증하고 구조 클래스 및 공간 군에 따른 일반화 평가
- 에너지 예측자-가이드 Monte Carlo Tree Search와 통합하여 물리적으로 의미 있는 후보의 생성을 개선
제안 방법
- 수백만 개의 CIF 파일에서 디코더 전용 Transformer를 학습합니다 (25M-parameter 소형 모델 및 200M-parameter 대형 모델).
- CIF를 토큰 시퀀스로 표현하고 프롬프트(셀 조성, 공간군)에 조건을 부여하여 다음 토큰을 자 autoregressively 예측하고 새로운 CIF 파일을 생성합니다.
- 생성된 CIF의 구문 유효성 및 화학적 타당성을 보유한 테스트 구조와 비교하여 평가합니다.
- unseen formulas 및 공간군으로 프롬프트를 주어 일반화를 평가하고, 학습 데이터에 포함되지 않은 문헌 유래 구조의 챌런지 세트를 사용합니다.
- ALIGNN 형성에너지원-원자당 에너지 예측기와 함께 MCTS를 사용하여 낮은 에너지 구조를 샘플링하도록 가이드를 제공합니다.

실험 결과
연구 질문
- RQ1CrystaLLM이 보이지 않는 무기질 구조에 대해 구문적으로 유효한 CIF 파일을 생성할 수 있는가?
- RQ2 CrystaLLM은 보이지 않는 조성 및 공간군에 얼마나 잘 일반화하는가?
- RQ3공간군 조건화를 포함하면 생성 품질이 향상되고 알려진 구조에 맞춰지는가?
- RQ4벤치마크 데이터셋에서 CrystaLLM은 diffusion/ VAE 기반 CSP 모델과 어떻게 비교되는가?
- RQ5에너지 예측으로의 MCTS 등 탐색 전략이 생성 구조의 품질을 개선하는가?
주요 결과
- 소형 모델이 공간 군 없이 보유 테스트 세트에서 93.8%의 구문적으로 유효한 CIF 생성을 달성했고, 공간 군을 사용하면 94.0%에 이르고, 가장 긴 유효 CIF 길이는 공간 군 없이 1145 토큰, 공간 군과 함께 970 토큰이었다.
- 공간-군 조건화가 있을 때 테스트 세트에서 CIF의 구조적 일관성 지표(예: 공간군 일관성 99.1%, 원자 사이트 다중성 일관성 99.4%)가 높게 나타났다.
- 챌린지 세트의 70개 구조(문헌에서 유래한 58개는 보지 못했고, 학습 데이터에선 본 적 없음; 12개는 학습에 사용된 구조) 중 소형 모델은 공간 군 없이 85.7%, 공간 군 있을 때 88.6%의 성공 생성률을 보였고, 대형 모델은 각각 87.1%와 91.4%를 달성했으며, unseen-match 비율은 대형 모델에서 공간 군 있을 때 최대 41.4%에 도달했다.
- CrystaLLM은 학습 데이터에 없는 화합물에 대해 대형 모델에서 최대 약 40% 정도의 속도로 실제 구조를 맞추는 것으로 확인되었고(공간 군이 제공될 때 더 높아짐).
- CrystaLLM은 20 샘플당 테스트 조성에 대해 RMSE에서 CDVAE 및 DiffCSP보다 다수 벤치마크 CSP에서 더 나은 성능을 보였고, 대칭 공간 군에 조건을 걸 수 있는 독특한 능력을 보여주었다.
- 이 방법은 비유추적 구조 생성이 가능하므로 예를 들어 ZrMn6Sn6 유사 모티프를 치환하여 생성하는 등 구조를 생성하고, rutile, spinel, elpasolite, pyrochlore 등 복잡한 클래스의 그럴듯한 구조를 만들어낼 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.