Skip to main content
QUICK REVIEW

[논문 리뷰] SELFIES and the future of molecular string representations

Mario Krenn, Qianxiang Ai|arXiv (Cornell University)|2022. 03. 31.
Machine Learning in Materials Science인용 수 23
한 줄 요약

본 논문은 분자 문자열 표현(SMILES, INCHI, DEEP SMILES, SELFIES)을 검토하고 SELFIES의 100% 강건성을 옹호하며 화학 및 재료 과학에서 강건한 AI 친화적 표현을 위한 16개의 향후 프로젝트를 제시한다.

ABSTRACT

Artificial intelligence (AI) and machine learning (ML) are expanding in popularity for broad applications to challenging tasks in chemistry and materials science. Examples include the prediction of properties, the discovery of new reaction pathways, or the design of new molecules. The machine needs to read and write fluently in a chemical language for each of these tasks. Strings are a common tool to represent molecular graphs, and the most popular molecular string representation, SMILES, has powered cheminformatics since the late 1980s. However, in the context of AI and ML in chemistry, SMILES has several shortcomings -- most pertinently, most combinations of symbols lead to invalid results with no valid chemical interpretation. To overcome this issue, a new language for molecules was introduced in 2020 that guarantees 100\% robustness: SELFIES (SELF-referencIng Embedded Strings). SELFIES has since simplified and enabled numerous new applications in chemistry. In this manuscript, we look to the future and discuss molecular string representations, along with their respective opportunities and challenges. We propose 16 concrete Future Projects for robust molecular representations. These involve the extension toward new chemical domains, exciting questions at the interface of AI and robust languages and interpretability for both humans and machines. We hope that these proposals will inspire several follow-up works exploiting the full potential of molecular string representations for the future of AI in chemistry and materials science.

연구 동기 및 목표

  • 분자 표현의 역사적 전개를 추적하고 현재의 문자열 기반 표현을 평가한다.
  • 화학에서 AI 및 ML를 위한 SMILES, INCHI, DEEP SMILES, SELFIES의 강점과 약점을 강조한다.
  • 다양한 분야에서 강건하고 해석 가능한 분자 표현을 발전시키기 위한 구체적인 향후 연구 방향을 제시한다.

제안 방법

  • 다른 분자 문자열 표현의 표준적 속성과 강건성을 비교한다.
  • 100% 구문적·의미적 타당성을 보장하는 SELFIES 문법과 오버로딩 메커니즘을 설명한다.
  • 고분자, 결정 및 무기 화학으로의 일반화 가능성과 한계를 논의한다.
  • 강건한 분자 표현을 위한 16개의 독립적인 향후 프로젝트 및 연구 주제를 제안한다.

실험 결과

연구 질문

  • RQ1다양한 분자 문자열 표현은 강건성과 ML 적합성 측면에서 어떤 성과를 보이나?
  • RQ2작은 유기 분자를 넘어 강건한 문자열 표현을 확장하기 위한 향후 방향과 구체적 프로젝트는 무엇인가?
  • RQ3SELFIES를 고분자, 결정 및 비유기 화학으로 일반화하되 강건성을 유지하는 방법은?

주요 결과

  • SELFIES는 모든 문자열을 유효한 분자 그래프로 매핑하는 형식 문법을 사용하여 100% 강건성을 제공한다.
  • SMILES는 널리 사용되지만 분자당 복수의 문자열 문제와 생성 모델에서의 무효 출력 문제가 있다.
  • IUPAC INCHI는 표준화 및 계층 정보를 제공하지만 ML 기반 생성에는 더 어렵고 일부 결합 정보를 잃을 수 있다.
  • DEEP SMILES는 SMILES에 비해 강건성을 향상시키지만 여전히 의미적으로 무효한 분자를 허용한다.
  • 본 논문은 도메인 독립적 강건성(metaSELFIES) 및 고분자 확장(BigSELFIES)을 포함한 16개의 구체적인 향후 프로젝트를 제시한다.
  • 강건한 표현은 유전 알고리즘 및 탐험 작업과 같은 AI 기반 응용에서 이점을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.