Skip to main content
QUICK REVIEW

[논문 리뷰] Analyzing Learned Molecular Representations for Property Prediction

Kevin Yang, Kyle L. Swanson|arXiv (Cornell University)|2019. 04. 02.
Computational Drug Discovery Methods인용 수 204
한 줄 요약

본 논문은 학습된 분자 표현을 고정된 디스크립터와 비교하기 위해 결합 중심 메시지 전달을 갖춘 새로운 Directed MPNN (D-MPNN)을 사용하여 벤치마크를 수행하고, 공개 및 독점 데이터셋에서의 강력한 성능과 견고한 일반화를 위한 scaffold 기반 스플리트를 강조한다.

ABSTRACT

Advancements in neural machinery have led to a wide range of algorithmic solutions for molecular property prediction. Two classes of models in particular have yielded promising results: neural networks applied to computed molecular fingerprints or expert-crafted descriptors, and graph convolutional neural networks that construct a learned molecular representation by operating on the graph structure of the molecule. However, recent literature has yet to clearly determine which of these two methods is superior when generalizing to new chemical space. Furthermore, prior research has rarely examined these new models in industry research settings in comparison to existing employed models. In this paper, we benchmark models extensively on 19 public and 16 proprietary industrial datasets spanning a wide variety of chemical endpoints. In addition, we introduce a graph convolutional model that consistently matches or outperforms models using fixed molecular descriptors as well as previous graph neural architectures on both public and proprietary datasets. Our empirical findings indicate that while approaches based on these representations have yet to reach the level of experimental reproducibility, our proposed model nevertheless offers significant improvements over models currently used in industrial workflows.

연구 동기 및 목표

  • 속성 예측을 위해 학습된 분자 표현이 전통적인 지문/디스크립터와 어떻게 비교되는지 평가한다.
  • 새로운 화학 공간에 걸친 일반화 문제를 다루는 그래프 기반 모델(D-MPNN)을 개발하고 평가한다.
  • 정적 디스크립터 특징과 학습된 표현을 통합하여 정확도와 로버스트성을 향상시킨다.
  • 실제 적용 가능성을 평가하기 위해 공개 데이터셋과 대규모 독점 산업 데이터셋 모두에서 모델을 평가한다.
  • 데이터 분할 전략( scaffold 대 random )과 하이퍼파라미터 최적화가 성능에 미치는 영향을 조사한다.

제안 방법

  • totters를 줄이기 위해 원자(atom) 대신 방향성 결합(directed bonds)을 따라 메시지를 전달하는 Directed MPNN을 도입한다.
  • 결합 중심 메시지 전달과 분자 표현으로 집계하는 읽기(readout)와 결합한다.
  • 읽기 시점에 학습된 표현에 RDKit에서 파생된 전역 분자 특징 200개를 보강한다.
  • 깊이(depth), 은닉 크기(hidden size), 층(layers), 드롭아웃(dropout)을 튜닝하기 위해 베이지안 최적화를 적용한다.
  • 예측 성능을 높이기 위해 앙상블링을 사용하고, 단일 모델 및 앙상블 결과를 모두 보고한다.
  • 감독 학습 속성 예측 작업을 수행하는 분자 그래프에서 엔드-투-엔드로 학습한다.

실험 결과

연구 질문

  • RQ1다양한 데이터셋에서 그래프 기반 학습 표현(D-MPNN)이 고정 지문/디스크립터보다 우수한가?
  • RQ2scaffold 기반 데이터 분할이 일반화 및 모델 순위에 미치는 영향은 무작위 분할과 비교해 어떤가?
  • RQ3학습된 표현과 고정 디스크립터 특징을 결합하면 예측 정확도와 로버스트성이 향상될 수 있는가?
  • RQ4공개 및 독점 데이터셋에서 하이퍼파라미터 최적화와 앙상블링이 모델 성능에 미치는 영향은 무엇인가?
  • RQ5최첨단 기반선에 비해 산업 벤치마크에 학습된 표현이 얼마나 일반화되는가?

주요 결과

  • D-MPNN은 결합 중심 메시지를 통해 공개 및 독점 데이터셋에서 일관되게 디스크립터 기반 및 이전 그래프 모델과 일치하거나 그 이상을 보인다.
  • 학습 표현과 고정 디스크립터를 결합한 하이브리드 모델은 각 접근 방식 단독보다 더 높은 성능과 더 나은 일반화를 보인다.
  • scaffold 기반 분할은 일반화를 보다 현실적으로 평가하고 산업계에서 사용되는 시간적 분할과 근사한다.
  • 베이지안 방법을 통한 하이퍼파라미터 최적화가 성능을 크게 향상시키고, 앙상블링이 추가 이득을 제공한다.
  • 데이터셋의 상당 부분에서 D-MPNN이 MoleculeNet 벤치마크 및 Mayr et al. 모델에 비해 비슷하거나 우수한 성능을 보여준다; 회귀 작업에서 특히 강하고 다수의 분류 데이터셋에서 강하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.