Skip to main content
QUICK REVIEW

[論文レビュー] Learning Graph-Level Representation for Drug Discovery

Junying Li, Deng Cai|arXiv (Cornell University)|Sep 12, 2017
Computational Drug Discovery Methods参考文献 18被引用数 79
ひとこと要約

原子すべてに接続されたダミーのスーパーノードを導入し、修正されたグラフ畳み込みを用いることで分子特性予測のグラフレベル表現学習アプローチを提案し、グラフレベルの分類/回帰を可能にし、フォーカル損失でデータ不均衡に対処する。

ABSTRACT

Predicating macroscopic influences of drugs on human body, like efficacy and toxicity, is a central problem of small-molecule based drug discovery. Molecules can be represented as an undirected graph, and we can utilize graph convolution networks to predication molecular properties. However, graph convolutional networks and other graph neural networks all focus on learning node-level representation rather than graph-level representation. Previous works simply sum all feature vectors for all nodes in the graph to obtain the graph feature vector for drug predication. In this paper, we introduce a dummy super node that is connected with all nodes in the graph by a directed edge as the representation of the graph and modify the graph operation to help the dummy super node learn graph-level feature. Thus, we can handle graph-level classification and regression in the same way as node-level classification and regression. In addition, we apply focal loss to address class imbalance in drug datasets. The experiments on MoleculeNet show that our method can effectively improve the performance of molecular properties predication.

研究の動機と目的

  • ノードレベルの特徴を超える分子特性予測におけるグラフレベル表現の必要性を動機づける。
  • 局所ノード表現を変更せずにグラフレベルの特徴を学習するダミーのスーパーノードを導入する。
  • グラフ畳み込み演算と正規化をグラフレベル学習をサポートするよう適応させる。
  • フォーカル損失を用いて薬物データセットのクラス不均衡に対処する。
  • 毒性、活性、溶解性タスクにおいてMoleculeNetデータセットで性能が向上することを示す。

提案手法

  • グラフレベルの特徴を学習するため、すべての原子に有向辺で接続されたダミーのスーパーノードSを追加する。
  • 標準のGraphConvとGraphPool演算を修正し、Sが局所ノード特徴を維持しつつグローバル情報を集約できるようにする。
  • ノードレベルのバッチ正規化を適用して、分子サイズの差異に対処する。
  • ダミー ノードの特徴量を入力とする2層の分類器を用いてグラフレベル予測を行う。
  • 不均衡なデータセットに対処するため、クロスエントロピーをフォーカル損失に置換する。
  • MoleculeNetデータセット(Tox21、ToxCast、HIV、MUV、PCBA、FreeSolv)を、複数のデータ分割(Index、Random、Scaffold)で評価する。

実験結果

リサーチクエスチョン

  • RQ1ダミーのスーパーノードは分子の効果的なグラフレベル表現学習を可能にするか?
  • RQ2提案されたグラフレベル手法は、MoleculeNet上で標準のGraphConvより分子特性予測を改善するか?
  • RQ3フォーカル損失は、不均衡な薬物データセットの性能にどう影響するか?
  • RQ4異なるデータ分割(Index、Random、Scaffold)がグラフレベルタスクのモデル一般化にどのように影響するか?

主な発見

  • ダミーのスーパーノードはグラフレベル学習を可能にし、複数のMoleculeNetデータセットで標準のGraphConvより性能を向上させる。
  • 分類タスク(Tox21、ToxCast、MUV、PCBA)では、提案手法はECFP+LRおよび標準のGraphConvの両方よりAUCが高く、平均改善は約1.5%程度。
  • HIVデータセットでは、フォーカル損失の適用によりさらなる性能向上が得られ、特に不均衡条件下で顕著。
  • 回帰タスク(FreeSolv)では、手法は一般にGraphConvを上回り、特にIndex分割とRandom分割で顕著だが、Scaffold分割では一般化がより難しい。
  • ノードレベルのバッチ正規化とバッチ正規化前のReLUは、グラフレベル学習の訓練安定性に寄与する。
  • このアプローチは、特定の分割やデータセットでab-initio法と競合する、またはそれを上回ることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。