Skip to main content
QUICK REVIEW

[論文レビュー] Molecule Attention Transformer

Łukasz Maziarka, Tomasz Danel|arXiv (Cornell University)|Feb 19, 2020
Computational Drug Discovery Methods参考文献 44被引用数 108
ひとこと要約

Molecule Attention Transformer (MAT) は Transformer の自己注意を分子間の距離と分子グラフ構造で補強し、競争力のある分子特性予測と解釈可能なアテンションを実現する;事前学習済み MAT はハイパーパラメータ調整を削減し性能を向上させる。

ABSTRACT

Designing a single neural network architecture that performs competitively across a range of molecule property prediction tasks remains largely an open challenge, and its solution may unlock a widespread use of deep learning in the drug discovery industry. To move towards this goal, we propose Molecule Attention Transformer (MAT). Our key innovation is to augment the attention mechanism in Transformer using inter-atomic distances and the molecular graph structure. Experiments show that MAT performs competitively on a diverse set of molecular prediction tasks. Most importantly, with a simple self-supervised pretraining, MAT requires tuning of only a few hyperparameter values to achieve state-of-the-art performance on downstream tasks. Finally, we show that attention weights learned by MAT are interpretable from the chemical point of view.

研究の動機と目的

  • 幅広い分子特性予測タスクのための深いモデルを開発する。
  • 隣接情報と距離データを介して化学構造情報を Transformer のアテンションに組み込む。
  • 単純な自己教師付き事前学習がハイパーパラメータの調整を減らし性能を向上させることを示す。
  • MAT が学習するアテンション重みが化学的に解釈可能であることを示す。

提案手法

  • Transformer の自己注意を、アテンション、距離、グラフ情報を λa, λd, λg による重み付き和で混合する Molecule Self-Attention に置換する。
  • 原子を原子種と局所特徴を組み込んだ26次元埋め込みで表現する。
  • RDKit を用いて3D コンフォーメーションから距離行列 D を計算し、それを g(D) を介してアテンションに組み込む(例: 行ごとに softmax または exp(-d))。
  • 入力をダミー ノードで補強し、該当するパターンがない場合にモデルが回避できるようにする。
  • ノードレベルのマスク付き特徴予測を用いて MAT を事前学習し、学習を安定させハイパーパラメータ探索を削減する。
  • スキャフォールド分割とランダム分割の下で多様な分子データセットを評価し、ベースラインのグラフベースおよび指紋ベースモデルと比較する。)

実験結果

リサーチクエスチョン

  • RQ1分子グラフ構造と原子間距離を補強したアテンション機構は、多様な分子特性予測タスクで競争力を発揮できるだろうか?
  • RQ2MAT において自己教師付き事前学習は最小限のハイパーパラメータ調整で高い性能を可能にするか?
  • RQ3MAT のアテンション重みは化学的観点から解釈可能か?

主な発見

  • MAT は浅いモデルやいくつかのグラフベースのベースラインと比べて、幅広いデータセットで競争力がある、または優れた性能を達成する。
  • 事前学習により、事前学習なしの変種を上回り、調整するハイパーパラメータは少数(学習率のみ)で済むため探索労力を大幅に削減する。
  • 事前学習済み MAT はデータセット間で最良の平均順位を達成し、他手法の数百回に対して7回のハイパーパラメータ評価のみを使用する。
  • アブレーション研究は、ダミー ノードの使用とグラフおよび距離情報の組み込みが、タスク全体の安定性と性能を向上させることを示す。
  • MAT のアテンションヘッドは解釈可能な化学的パターンを学習し、いくつかのヘッドは特定の原子種や局所的サブ構造に焦点を当てる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。