Skip to main content
QUICK REVIEW

[논문 리뷰] SELFIES: a robust representation of semantically constrained graphs with an example application in chemistry.

Mario Krenn, Florian Häse|arXiv (Cornell University)|2019. 05. 31.
Computational Drug Discovery Methods참고 문헌 43인용 수 54
한 줄 요약

이 논문은 모든 생성된 문자열이 화학적으로 타당한 분자를 나타내는 100% 유효한 문자 기반 분자 표현 방식인 SELFIES를 소개한다. 계층적이고 자기 참조적인 문법을 통해 분자 구조를 인코딩함으로써, SELFIES는 화학에서 강력한 생성 기계 학습을 가능하게 하며, 모델의 메모리 다양성을 두 배수 증가시키고 후처리 없이도 해석 가능하고 유효한 분자 생성을 가능하게 한다.

ABSTRACT

The discovery of novel materials and functional molecules can help to solve some of society's most urgent challenges, ranging from efficient energy harvesting and storage to uncovering novel pharmaceutical drug candidates. Traditionally matter engineering -- generally denoted as inverse design -- was based massively on human intuition and high-throughput virtual screening. The last few years have seen the emergence of significant interest in computer-inspired designs based on evolutionary or deep learning methods. The major challenge here is that the standard strings molecular representation SMILES shows substantial weaknesses in that task because large fractions of strings do not correspond to valid molecules. Here, we solve this problem at a fundamental level and introduce SELFIES (SELF-referencIng Embedded Strings), a string-based representation of molecules which is 100\% robust. Every SELFIES string corresponds to a valid molecule, and SELFIES can represent every molecule. SELFIES can be directly applied in arbitrary machine learning models without the adaptation of the models; each of the generated molecule candidates is valid. In our experiments, the model's internal memory stores two orders of magnitude more diverse molecules than a similar test with SMILES. Furthermore, as all molecules are valid, it allows for explanation and interpretation of the internal working of the generative models.

연구 동기 및 목표

  • 생성된 문자열의 대부분이 유효한 분자가 아닌 SMILES의 근본적 한계를 해결하기 위해, 유효성을 보장하는 표현 방식을 개발한다.
  • 모든 생성된 후보가 처음부터 화학적으로 타당함을 보장함으로써, 기계 학습을 통한 신뢰성 있고 효율적인 역분자 설계를 가능하게 한다.
  • 검증 필터링 없이도 다양한 화학적 공간 탐색과 메모리 효율적인 탐색을 지원한다.
  • 검색 공간에서 유효하지 않은 분자 후보를 제거함으로써 생성 기계 학습 모델의 동작을 더 명확히 해석할 수 있도록 한다.
  • 모델 아키텍처를 수정하지 않고도 어떤 기계 학습 모델에도 직접 사용할 수 있는 보편적이고 문법 기반의 문자열 표현 방식을 제공한다.

제안 방법

  • 분자 구조를 재귀적이고 문맥 자유적인 방식으로 보장하는 계층적이고 자기 참조적인 문법을 설계하여 구문적 유효성을 확보한다.
  • 결합성과價수 제약 조건을 문법 수준에서 강제하는 고정된 생산 규칙 집합을 사용하여 분자를 문자열로 표현한다.
  • 복잡한 프래그먼트를 압축적으로 표현할 수 있도록 자기 참조 토큰을 사용하여 분자 부분 구조를 인코딩한다.
  • 모든 가능한 문자열이 고유하고 유효한 분자를 나타내도록 설계된 문자열 표현 방식을 구축한다.
  • 모델 재학습이나 아키텍처 변경 없이도 SELFIES를 기존 기계 학습 모델에 직접 통합한다.
  • 문법 기반의 구조를 활용하여 잠재 공간에서 높은 다양성을 가진 분자의 효율적 탐색과 생성을 가능하게 한다.

실험 결과

연구 질문

  • RQ1모든 가능한 문자열이 유효한 분자를 나타내는 문자 기반 분자 표현 방식을 구축할 수 있는가?
  • RQ2생성 모델에서 메모리 효율성과 생성된 분자의 다양성 측면에서 SELFIES는 SMILES에 비해 어떻게 비교되는가?
  • RQ3100% 유효한 표현 방식을 사용할 경우, 분자 생성에서 기계 학습 모델의 해석 가능성과 신뢰성은 어느 정도 향상되는가?
  • RQ4기존 딥 러닝 프레임워크에 SELFIES를 모델 아키텍처 수정 없이 원활하게 통합할 수 있는가?
  • RQ5SELFIES의 사용으로 인해 모델 학습 중 탐색하는 고유하고 유효한 분자의 수가 크게 증가하는가?

주요 결과

  • 모든 SELFIES 문자열은 유효한 분자를 나타내며, 후처리나 필터링 없이도 100% 유효성을 보장한다.
  • 모델 내부 메모리가 유사한 SMILES 기반 모델 대비 분자 다양성을 두 배수 증가시켰다.
  • 모델 아키텍처 적응 없이도 어떤 기계 학습 모델에도 직접 적용 가능하여 통합을 단순화한다.
  • 화학적 결합성과價수를 강제하는 자기 참조 문법을 통해 복잡하고 유효한 분자 구조의 생성을 지원한다.
  • 검색 공간에서 유효하지 않은 후보가 없기 때문에 생성 모델의 동작을 더 명확히 해석할 수 있다.
  • SELFIES는 모든 가능한 분자를 표현할 수 있어 분자 공간에 대한 보편적이고 완전한 표현 방식이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.