Skip to main content
QUICK REVIEW

[論文レビュー] Leffingwell Odor Dataset

Benjamín Sánchez-Lengeling, Jennifer N. Wei|arXiv (Cornell University)|Oct 23, 2019
Olfactory and Sensory Function Studies参考文献 39被引用数 95
ひとこと要約

The paper trains graph neural networks on a curated, expert-labeled QSOR dataset to predict odor descriptors from molecular graphs, establishing a learned odor space and showing transferability to related tasks.

ABSTRACT

<strong>NOTE: It's easier to download this dataset from pyrfume. Here's how:</strong> <pre><code># First install pyrfume in your Python environment. This can be done easily with pip. # pip install pyrfume import pyrfume molecules = pyrfume.load_data('leffingwell/molecules.csv', remote=True) behavior = pyrfume.load_data('leffingwell/behavior.csv', remote=True) # e.g. to count the number of molecules with each descriptor behavior.sum().sort_values(ascending=False).astype(int) </code></pre> Predicting properties of molecules is an area of growing research in machine learning, particularly as models for learning from graph-valued inputs improve in sophistication and robustness. A molecular property prediction problem that has received comparatively little attention during this surge in research activity is building Structure-Odor Relationships (SOR) models (as opposed to Quantitative Structure-Activity Relationships, a term from medicinal chemistry). This is a 70+ year-old problem straddling chemistry, physics, neuroscience, and machine learning. To spur development on the SOR problem, we curated and cleaned a dataset of 3523 molecules associated with expert-labeled odor descriptors from the <em>Leffingwell PMP 2001</em> database. We provide featurizations of all molecules in the dataset using bit-based and count-based fingerprints, Mordred molecular descriptors, and the embeddings from our trained GNN model (Sanchez-Lengeling et al., 2019). This dataset is comprised of two files: <strong>leffingwell_data.csv</strong>: this contains molecular structures, and what they smell like, along with train, test, and cross-validation splits. More detail on the file structure is found in leffingwell_readme.pdf. <strong>leffingwell_embeddings.npz</strong>: this contains several featurizations of the molecules in the dataset. <strong>leffingwell_readme.pdf</strong>: a more detailed description of the data and its provenance, including expected performance metrics. <strong>LICENSE</strong>: a copy of the CC-BY-NC license language. The dataset, and all associated features, is freely available for research use under the CC-BY-NC license. If you use the data in a publication, please cite: <pre>@article{sanchez2019machine, title={Machine learning for scent: Learning generalizable perceptual representations of small molecules}, author={Sanchez-Lengeling, Benjamin and Wei, Jennifer N and Lee, Brian K and Gerkin, Richard C and Aspuru-Guzik, Al{\'a}n and Wiltschko, Alexander B}, journal={arXiv preprint arXiv:1910.10685}, year={2019} }</pre>

研究の動機と目的

  • QSORを化学と神経科学にまたがる難しく長年の問題として動機づける。
  • 香水データベースからの表現を標準化して、大規模な専門家ラベル付き嗅覚データセットを作成する。
  • グラフニューラルネットワークが分子グラフから嗅覚 descriptors を予測する能力を、従来のベースラインより効果的に示す。
  • 学習された嗅覚埋め込みが知覚的構造を捉え、新しい嗅覚 descriptors への転移学習を支援することを示す。

提案手法

  • 分子を原子をノード、結合をエッジとするグラフとして表現する。
  • グラフニューラルネットワークを訓練して、138個の嗅覚 descriptors を同時に予測する(マルチラベル分類)。
  • RDKitビット指紋、Morgan指紋、Mordred特徴量を用いて、GNNをベースライン(ランダムフォレストとk-NN)と比較する。
  • GNNのペンultimate層出力を固定次元の嗅覚埋め込みとして用い、グローバルおよびローカル構造の解析を行う。
  • AUROC、精度、F1で評価し、ブートストラップに基づく信頼区間を報告する。
  • ハイパーパラメータチューニングの詳細とアーキテクチャのバリアント(GCN vs MPNN)を含む付録を提供する。

実験結果

リサーチクエスチョン

  • RQ1GNNは分子グラフから複数の嗅覚 descriptors に対して一般化可能な嗅覚表現を学習できるか?
  • RQ2学習された嗅覚埋め込みは、グローバルに知覚的関係を反映するか(嗅覚グループごとのクラスタ化など)、局所的には知覚的に類似した近傍を反映するか?
  • RQ3GNN埋め込みは未 seen または新たに定義された嗅覚 descriptors の予測へ転移可能か?
  • RQ4嗅覚埋込みは、訓練データセットを超えた関連する嗅覚予測タスクへ転移できるか?
  • RQ5複数の descriptors にわたって、GNN ベースの QSOR の性能は従来の特徴量ベースのベースラインと比較してどうか?

主な発見

ModelAUROC (mean [CI])Precision (mean [CI])F1 (mean [CI])
GNN0.894 [0.888, 0.902]0.379 [0.351, 0.398]0.360 [0.337, 0.372]
RF-Mordred0.850 [0.838, 0.860]0.311 [0.288, 0.333]0.306 [0.283, 0.319]
RF-bFP0.832 [0.821, 0.842]0.321 [0.293, 0.339]0.295 [0.272, 0.308]
RF-cFP0.845 [0.835, 0.854]0.315 [0.280, 0.332]0.295 [0.272, 0.311]
KNN-bFP0.791 [0.778, 0.803]0.328 [0.305, 0.347]0.323 [0.299, 0.335]
KNN-cFP0.796 [0.785, 0.809]0.333 [0.307, 0.351]0.316 [0.292, 0.327]
  • GNNは平均 AUROC(0.894)を Mordred RF(0.850)や Morganベース RF(0.845)などのベースラインより高く達成する。
  • GNNは大多数の descriptors において AUROC で、ビットベース(bFP)およびカウントベース(cFP)指紋を上回る。
  • GNN埋め込みは嗅覚空間を知覚的類似性でグローバルに組織し、嗅覚 descriptors を意味のある領域にクラスタリングする(例:musk、cabbage、lily、grape)。”
  • 局所的には、GNN埋め込みを用いたKNNは、指紋ベースのKNNより知覚的に類似した分子をよりよく取得する(AUROC 0.818 対 0.782)。
  • 埋め込みは未見の descriptors への転移学習を可能にし、アブレーション実験で Morgan 指紋および Mordred 特徴より優れている。
  • DREAM Olfaction Prediction Challenge の文脈では、平均 Pearson’s r で GNN埋め込みは最先端と競合的に機能する(0.55 対 0.54)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。