QUICK REVIEW

[論文レビュー] Pre-training via Denoising for Molecular Property Prediction

Sheheryar Zaidi, Michael Schaarschmidt|arXiv (Cornell University)|May 31, 2022

Machine Learning in Materials Science被引用数 30

ひとこと要約

著者らは、3D分子構造をノイズ除去する自己教師付き事前学習法を提案し、表現を学習、QM9および他のベンチマークで最先端の結果を達成しています。

ABSTRACT

Many important problems involving molecular property prediction from 3D structures have limited data, posing a generalization challenge for neural networks. In this paper, we describe a pre-training technique based on denoising that achieves a new state-of-the-art in molecular property prediction by utilizing large datasets of 3D molecular structures at equilibrium to learn meaningful representations for downstream tasks. Relying on the well-known link between denoising autoencoders and score-matching, we show that the denoising objective corresponds to learning a molecular force field -- arising from approximating the Boltzmann distribution with a mixture of Gaussians -- directly from equilibrium structures. Our experiments demonstrate that using this pre-training objective significantly improves performance on multiple benchmarks, achieving a new state-of-the-art on the majority of targets in the widely used QM9 dataset. Our analysis then provides practical insights into the effects of different factors -- dataset sizes, model size and architecture, and the choice of upstream and downstream datasets -- on pre-training.

研究の動機と目的

ラベル付きデータが乏しい3D構造からの分子特性予測のための事前学習アプローチの動機付けと開発。
デノイジング/スコアマッチングを活用して、平衡構造から意味のある力場のような表現を学ぶ。
デノイジングベースの事前学習が多様なデータセットとアーキテクチャにわたって下流タスクの性能を向上させることを示す。
上流データセットのサイズ、モデルサイズ、アーキテクチャ、データセットの類似性が転移に与える影響について実用的な洞察を提供する。

提案手法

原子座標にガウスノイズを摂動させ、ノイズを予測するGNNを訓練して、3D分子構造上のデノイジング事前学習目標を定式化する。
デノイジング目的を、平衡構造の周りのボルツマン分布のガウス混合近似に対応する力場を学ぶこととして解釈する。
この事前学習をGraph Net Simulator (GNS) および Tailored Activation Transform (TAT) 強化差分変種 (GNS-TAT) に適用する。
不変/共変成分を持つトランスフォーマーベースのモデルである TorchMD-NET にデノイジング事前学習を適用することでも、アーキテクチャに依存しないことを示す。
前処理を補完するための補助損失として Noisy Nodes を用い、その影響を分析する。
転移性能におけるデータセットサイズ、モデルサイズ、上流/下流データセットの関係を分析する。）

実験結果

リサーチクエスチョン

RQ1デノイジングによる事前学習は、ランダム初期化と比べて下流の分子性質予測を改善しますか？
RQ2デノイング事前学習の利点は、上流（事前学習）と下流データセットの関係によってどう変わりますか？
RQ3デノイング事前学習は、異なるアーキテクチャ（GNNsとトランスフォーマー）およびタスク（QM9、OC20、DES15K）全体で有効ですか？

主な発見

デノイジングによる事前学習は、複数のデータセットとターゲットにわたり下流性能を著しく向上させ、QM9の大半のターゲットで新たな最先端成果を達成する。
GNS-TAT は Noisy Nodes を用いたデノイジング事前学習後、QM9 の 12 ターゲット中 10 ターゲットで最先端を達成；一部ターゲットはノイズスケールに敏感かもしれない。
PCQM4Mv2（3.4M の 3D 構造）での事前学習は一般的に QM9 と DES15K へよく転移するが、元素の重複とタスクの類似性により転移は異なる。
OC20 での事前学習は、PCQM4Mv2 で事前学習した場合 OC20 IS2RE 性能を改善せず、データセットの非類似性に起因する転移の制約を強調するが、OC20 自体で事前学習すると収束を速くした。
上流データの増加は一般に下流表現を改善し、より大きなモデルは事前学習の恩恵を受け、ゼロ-shotで訓練されたモデルを上回ることがある。
事前学習は力予測も改善し（例：MD17 アスピリン）、デコーダ部品のみをファインチューニングする場合に訓練を加速させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。