QUICK REVIEW

[논문 리뷰] Molecule Attention Transformer

Łukasz Maziarka, Tomasz Danel|arXiv (Cornell University)|2020. 02. 19.

Computational Drug Discovery Methods참고 문헌 44인용 수 108

한 줄 요약

Molecule Attention Transformer (MAT) 은 분자 간 거리와 분자 그래프 구조를 이용하여 Transformer 자기 주의를 보강하여 경쟁력 있는 분자 특성 예측과 해석 가능한 주의력을 가능하게 한다; 사전 학습된 MAT 는 하이퍼파라미터 튜닝을 줄이고 성능을 향상시킨다.

ABSTRACT

Designing a single neural network architecture that performs competitively across a range of molecule property prediction tasks remains largely an open challenge, and its solution may unlock a widespread use of deep learning in the drug discovery industry. To move towards this goal, we propose Molecule Attention Transformer (MAT). Our key innovation is to augment the attention mechanism in Transformer using inter-atomic distances and the molecular graph structure. Experiments show that MAT performs competitively on a diverse set of molecular prediction tasks. Most importantly, with a simple self-supervised pretraining, MAT requires tuning of only a few hyperparameter values to achieve state-of-the-art performance on downstream tasks. Finally, we show that attention weights learned by MAT are interpretable from the chemical point of view.

연구 동기 및 목표

다양한 분자 특성 예측 작업을 위한 심층 모델을 개발한다.
인접 및 거리 데이터를 통해 Transformer 주의에 화학 구조 정보를 통합한다.
단순한 자기지도 예비학습이 하이퍼파라미터 튜닝을 줄이고 성능을 향상시킴을 입증한다.
MAT에서 학습된 주의 가중치가 화학적으로 해석 가능한지 보여준다.

제안 방법

Transformer 자기 주의를 분자 자기 주의로 교체하고 주의, 거리, 그래프 정보를 가중합으로 혼합하며 λa, λd, λg 로 제어한다.
원자들을 원자 항등과 국부 특징을 포함하는 26차원 임베딩으로 표현한다.
3D 콘포머로부터 거리 행렬 D를 RDKit를 사용해 계산하고 이를 g(D) 를 통해 주의에 통합한다(예: 행에 대해 소프트맥스 또는 exp(-d)).
더미 노드를 추가하여 패턴이 없을 때도 모델이 패턴을 건너뛰도록 입력을 보강한다.
학습 안정화 및 하이퍼파라미터 탐색 감소를 위해 노드 수준의 마스킹 특징 예측으로 MAT를 사전 학습한다.
스캐폴드와 무작위 분할 하에서 다양한 분자 데이터셋에 대해 평가하고 베이스라인 그래프 및 지문 기반 모델과 비교한다.

실험 결과

연구 질문

RQ1분자 그래프 구조와 원자 간 거리가 보강된 주의 메커니즘이 다양한 분자 특성 예측 작업에서 경쟁력 있게 성능을 발휘할 수 있는가?
RQ2MAT에서 자기지도 예비학습이 최소한의 하이퍼파라미터 튜닝으로 강력한 성능을 가능하게 하는가?
RQ3MAT의 주의 가중치는 화학적 관점에서 해석 가능한가?

주요 결과

MAT는 얕은 모델과 여러 그래프 기반 베이스라인에 비해 광범위한 데이터 세트에서 경쟁력 있거나 우수한 성능을 달성한다.
사전 학습을 통해 MAT는 비사전 학습형 변종을 능가하고 몇 개의 하이퍼파라미터(학습률)만 조정하면 되어 탐색 노력이 크게 줄어든다.
사전 학습된 MAT는 데이터 세트 전반에서 최상의 평균 순위를 달성하며, 다른 방법들의 수백 번의 하이퍼파라미터 평가에 비해 단 7회의 평가만 사용한다.
삭감 연구는 더미 노드의 사용 및 그래프와 거리 정보를 포함하는 것이 태스크 전반에서 안정성과 성능을 향상시킴을 보여준다.
MAT의 주의 헤드는 해석 가능한 화학 패턴을 학습하며, 일부 헤드는 특정 원자 유형이나 국부 부분구조에 집중한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.