Skip to main content
QUICK REVIEW

[논문 리뷰] The "DNA" of chemistry: Scalable quantum machine learning with "amons"

Bing Huang, O. Anatole von Lilienfeld|arXiv (Cornell University)|2017. 07. 13.
Machine Learning in Materials Science인용 수 20
한 줄 요약

논문은 반복되는 화학적 환경을 나타내는 효과적 원자인 'amons'를 도입하여 분자의 성질을 예측하기 위한 확장 가능한 양자 기계학습을 가능하게 한다. 분자를 DNA와 유사하게 amons의 시퀀스로 표현함으로써, 대규모 생체분자 및 고분자와 같은 다양한 시스템에서 거의 실험적 정확도에 도달하는 양자 에너지 예측을 달성하며, 훈련 데이터가 극히 적은 경우에도 가능하다.

ABSTRACT

Given sufficient examples, recently introduced machine learning models enable rapid, yet accurate, predictions of properties of new molecules. Extrapolation to larger molecules with differing composition is prohibitive due to all the specific chemistries which would be required for training. We address this problem by exploiting redundancies due to chemical similarity of repeating building blocks each represented by an effective {\underline a}tom in {\underline m}olecule: The am-on. In analogy to the DNA sequence in a gene encoding its function, constituting amons encode a query molecule's properties. The use of amons affords highly accurate machine learning predictions of quantum properties of arbitrary query molecules in real time. We investigate this approach for predicting energies of various covalently and non-covalently bonded systems. After training on the few amons detected, very low prediction errors can be reached, on par with experimental uncertainty. Systems studied include two dozen large biomolecules, eleven thousand medium sized organic molecules, large common polymers, water clusters, doped $h$BN sheets, bulk silicon, and Watson-Crick DNA base pairs. Conceptually, the amons extend Mendeleev's table to account for the chemical environments of elements. They represent an important stepping stone to machine learning based virtual chemical space exploration campaigns.

연구 동기 및 목표

  • 반복되는 구조 모티프를 통해 산재한 화학 유사성을 활용하여 분자에 대한 양자 기계학습의 확장성 장벽을 극복하기 위해.
  • 반복되는 화학적 환경을 통합된 'amons'로 표현하여 광범위한 훈련 데이터가 필요로 하는 것을 줄이기 위해.
  • 크고 다양한 분자 시스템에 대해 정확하고 실시간으로 양자 성질(예: 에너지)을 예측할 수 있도록 하기 위해.
  • 화학적 환경 효과를 amons에 통합하여 주기율표 개념을 개념적으로 확장하고, 화학적 공간의 가상 탐색을 가능하게 하기 위해.

제안 방법

  • 반복되는 분자 서브스트럭처를 'amons'—지역 화학적 환경과 양자 성질을 인코딩한 효과적 원자—로 표현하기.
  • 검출된 amons의 소량의 데이터 세트를 기반으로 기계학습 모델을 훈련하여 새로운 분자의 양자 에너지를 예측하기.
  • 질의 분자를 DNA 서열이 생물학적 功能을 인코딩하는 것과 유사하게 amons의 시퀀스로 인코딩하기.
  • amons의 미분 가능 표현을 사용하여 기울기 기반 최적화를 가능하게 하고, 훈련 중에 보지 못한 분자 구조로의 일반화를 가능하게 하기.
  • 화학적 유사성을 활용하여 훈련 세트를 초월한 외삽 예측을 수행하고 데이터 요구량을 최소화하기.
  • 공유결합, 비공유결합, 그리고 확장된 격자상 상태 시스템을 포함한 다양한 시스템에 프레임워크를 적용하기.

실험 결과

연구 질문

  • RQ1소량의 amons로 다양한 분자의 핵심 양자 성질을 높은 정확도로 포괄할 수 있는가?
  • RQ2amons 기반 모델이 훈련 중에 보지 못한 더 크고 다양한 구조를 가진 분자로 일반화되는 정도는 어떠한가?
  • RQ3amons가 분자 시스템에서 양자 기계학습의 데이터 및 계산 비용을 얼마나 줄일 수 있는가?
  • RQ4복잡한 결합을 가진 시스템, 예를 들어 생체분자 및 도핑된 2D 물질에 대해 amon 프레임워크가 에너지를 정확히 예측할 수 있는가?
  • RQ5예측 정확도와 추론 속도 측면에서 amon 접근법은 전통적 방법과 비교하여 어떻게 성과를 내는가?

주요 결과

  • amons 기반 모델은 단 몇 개의 검출된 amons로 훈련한 후 실험 불확도 수준의 예측 오차를 달성한다.
  • 이 방법은 대규모 생체분자 및 고분자와 같은 광범위한 시스템에서 양자 에너지의 실시간 예측을 가능하게 한다.
  • 훈련 세트의 구성과 크기가 다른 분자로의 외삽 시에도 정확도가 높게 유지된다.
  • 프레임워크는 공유결합 시스템, 비공유결합 상호작용, 수분 클러스터, 도핑된 h-BN 필름, 몰립 실리콘, DNA 기저 쌍 등에 대해 에너지를 성공적으로 예측한다.
  • amons 표현은 화학적 환경 효과를 효과적으로 포착하여 주기율표 개념을 지역 결합 환경을 포함하는 방식으로 개념적으로 확장한다.
  • 각 분자에 대한 훈련 데이터가 필요로 하는 것을 줄임으로써, 화학적 공간의 확장 가능한 가상 탐색을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.