Skip to main content
QUICK REVIEW

[논문 리뷰] Molecular Representations for AI in Chemistry and Materials Science: An NLP Perspective

Sanjanasri JP, Pratiti Bhadra|arXiv (Cornell University)|2026. 02. 24.
Machine Learning in Materials Science인용 수 0
한 줄 요약

이 논문은 화학 및 재료과학에서의 인공지능을 위한 NLP에서 영감을 얻은 분자 표현(문자열 기반 및 그래프 기반)을 조사하고, 강점과 약점, 그리고 다운스트림 AI 응용을 강조합니다.

ABSTRACT

Deep learning, a subfield of machine learning, has gained importance in various application areas in recent years. Its growing popularity has led it to enter the natural sciences as well. This has created the need for molecular representations that are both machine-readable and understandable to scientists from different fields. Over the years, many chemical molecular representations have been constructed, and new ones continue to be developed as computer technology advances and knowledge of molecular complexity increases. This paper presents some of the most popular digital molecular representations inspired by natural language processing (NLP) and used in chemical informatics. In addition, the paper discusses some notable AI-based applications that use these representations. This paper aims to provide a guide to structural representations that are important for the application of AI in chemistry and materials science from the perspective of an NLP researcher. This review is a reference tool for researchers with little experience working with chemical representations who wish to work on projects at the interface of these fields.

연구 동기 및 목표

  • 머신러닝 기반 화학 및 재료 연구를 위한 기계 판독 가능 분자 표현의 필요성을 구체화한다.
  • 광범위하게 사용되는 문자열 기반 및 그래프 기반 표현과 그들의 NLP에서의 기원을 조사한다.
  • 머신러닝을 위한 분자 표현의 과제를 설명하고 서로 다른 표현이 이를 어떻게 해결하는지 설명한다.
  • NLP 연구자들이 cheminformatics 및 재료과학 AI 과제에 진입하기 위한 가이드를 제공한다.

제안 방법

  • 분자 표현을 문자열 기반과 그래프 기반 접근 방식으로 분류하고 정리한다.
  • SMILES, InChI, DeepSMILES, SELFIES와 각각의 한계 및 개선점을 논의한다.
  • 그래프 기반의 행렬 표현과 그것이 AI 과제에서의 사용을 설명한다.
  • NLP 개념에서 영감을 얻은 다운스트림 응용 및 모델들(예: Mol2vec, Smiles2vec, Graph2SMILES)을 설명한다.
Figure 1: Two Dimensional and Three Dimensional Structure of 3,4-Methylenedioxymethamphetamine (MDMA) molecule
Figure 1: Two Dimensional and Three Dimensional Structure of 3,4-Methylenedioxymethamphetamine (MDMA) molecule

실험 결과

연구 질문

  • RQ1어떤 NLP에서 영감을 얻은 표현이 AI를 사용한 화합물 및 재료 구조 모델링에 가장 효과적인가?
  • RQ2다양한 표현은 3D 구조, 입체화학, ML 태스크에서 화학적 타당성을 어떻게 다루는가?
  • RQ3문자열 기반과 그래프 기반 표현 간의 트레이드오프는 화학 및 재료과학의 다운스트림 AI 응용에 어떤 영향을 미치는가?

주요 결과

  • SMILES는 NLP와 유사한 임베딩을 가능하게 하지만 모호성, 3D 구조에 대한 표현의 한계, 의미적/구문적 오류를 초래할 수 있다.
  • InChI는 표준화되고 계층적이며 기계 판독 가능한 식별자를 제공하지만 길이가 길고 수소 원자 표현이 명시되지 않을 수 있으며, InChI Keys는 더 컴팩트한 대안을 제공한다.
  • DeepSMILES와 SELFIES는 SMILES의 한계를 해결하며, SELFIES는 화학적 타당성을 보장하고 구문/의미 오류를 줄여준다.
  • 그래프 기반 표현(인접성, 거리, 연결성 매트릭스)은 많은 AI 태스크에 더 적합한 유연하고 정보가 풍부한 구조를 제공한다; 그래프 인코더와 트랜스퍼 러닝은 태스크 간 재활용을 가능하게 한다.
  • Mol2vec 및 관련 임베딩 기법은 분자 조각을 단어로 취급하여 특성 예측 및 스크리닝에 유용한 임베딩을 생성한다.
  • Graph2SMILES 및 트랜스포머 기반 그래프 인코더는 그래프 표현과 SMILES 유사 출력 간의 다리를 놓는 진보를 보여준다.
Figure 2: Connectivity Matrix Representation for the MDMA Molecule
Figure 2: Connectivity Matrix Representation for the MDMA Molecule

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.