QUICK REVIEW

[論文レビュー] Towards Gene Expression Convolutions using Gene Interaction Graphs

Francis Dutil, Joseph Cohen|arXiv (Cornell University)|Jun 18, 2018

Bioinformatics and Genomic Networks参考文献 7被引用数 28

ひとこと要約

本論文では、低サンプルサイズの遺伝子発現データにおけるディープラーニングの性能を向上させるために、遺伝子相互作用グラフをグラフ畳み込みネットワーク（GCNs）における誘導的バイアスとして使用することを提案する。GeneMania や RegNetwork などのグラフから得られる生物学的知識を活用することで、特徴の学習と予測性能が向上し、特に単一遺伝子発現推定において顕著な効果を示す。1次近傍を用いる場合、AUC で最大20%の向上が確認されたが、性能はグラフの品質に強く依存する。

ABSTRACT

We study the challenges of applying deep learning to gene expression data. We find experimentally that there exists non-linear signal in the data, however is it not discovered automatically given the noise and low numbers of samples used in most research. We discuss how gene interaction graphs (same pathway, protein-protein, co-expression, or research paper text association) can be used to impose a bias on a deep model similar to the spatial bias imposed by convolutions on an image. We explore the usage of Graph Convolutional Neural Networks coupled with dropout and gene embeddings to utilize the graph information. We find this approach provides an advantage for particular tasks in a low data regime but is very dependent on the quality of the graph used. We conclude that more work should be done in this direction. We design experiments that show why existing methods fail to capture signal that is present in the data when features are added which clearly isolates the problem that needs to be addressed.

研究の動機と目的

低サンプルサイズの遺伝子発現データにおけるディープラーニングモデルの性能が低いという課題に対処すること。
遺伝子相互作用グラフが、モデルの一般化性能を向上させ、過学習を低減する有効な誘導的バイアスとして機能するかどうかを調査すること。
遺伝子相互作用グラフの品質と構造が、遺伝子発現タスクにおける下流の予測性能に与える影響を評価すること。
遺伝子発現データに非線形な信号が存在するが、ノイズとサンプル数の制限により、標準的なモデルではその信号を捉えられないことの確認。
局所的遺伝子ネighborhood から全遺伝子セットまで段階的に難易度を上げた設定により、モデルを評価するベンチマークを確立すること。

提案手法

著者らは、遺伝子相互作用グラフに含まれる事前知識に基づくエッジに沿って、遺伝子発現特徴を伝搬・集約するためのグラフ畳み込みネットワーク（GCNs）を用いる。
各遺伝子は、タンパク質-タンパク質相互作用、共発現、または GeneMania や RegNetwork のようなデータベースからのテキストベースの関連性によって定義される近隣遺伝子を持つグラフに埋め込まれる。
GCN は、正規化された隣接行列を用いたスペクトル畳み込みの近似を適用する：$\tilde{A} = D'^{-1/2} A' D'^{-1/2}$、ここで $A' = A + I_N$。
モデルの学習には ReLU 活性化関数、ドロップアウトによる正則化、低データ環境下での過学習を軽減するための32次元の遺伝子埋め込みを用いる。
MLPs、L1 正則化およびネットワーク正則化を組み合わせたスパースなロジスティック回帰（SLR）、および深さやプーリング戦略を変更したさまざまな GCN アーキテクチャと比較する。
実験では、入力遺伝子数を段階的に増加（1次近傍から全16,000遺伝子まで）させ、モデルのロバストネスと信号検出能力を評価する。

実験結果

リサーチクエスチョン

RQ1遺伝子相互作用グラフは、低サンプルサイズの遺伝子発現データにおけるディープラーニング性能を向上させる有効な誘導的バイアスとして機能するか？
RQ2基礎となる遺伝子相互作用グラフの品質と構造が、遺伝子発現予測におけるモデル性能に顕著な影響を及えるか？
RQ3ノイズとサンプル数の制限により、標準的なモデルが捉えられない非線形な信号が遺伝子発現データに存在するか？
RQ4MLPs やロジスティック回帰といった従来のモデルと比較して、GCN は単一遺伝子発現推定タスクでどの程度優れているか？
RQ5次第に大きな遺伝子集合を含めることでモデル性能にどのような影響が生じるか。また、局所的ネIGHBORHOOD 情報を用いることで、予測信号が保持されるか？

主な発見

GCNs を用いて遺伝子相互作用グラフを誘導的バイアスとして利用することで、特に1次近傍を用いた単一遺伝子発現予測において、最大20%のAUC向上が達成された。
13.41% のターゲット遺伝子について GeneMania グラフが全遺伝子セットよりも予測性能を向上させたが、RegNetwork は6.25%にとどまった。これは、RegNetwork がノードあたりのエッジ数がほぼ2倍あるにもかかわらず顕著な差である。
GCN は MLP やロジスティック回帰モデルを上回る性能を示し、特に生物学的に関連する近隣遺伝子に制限された入力特徴数の場合に顕著に優位性を示した。
より多くの近隣遺伝子を含めるに従って性能が安定または向上したため、関連する信号がしばしばローカルに局在していることが示された。全遺伝子を用いる場合に信号が捉えられない可能性がある。
本研究では、遺伝子発現データに非線形な信号が存在することは確認されたが、ノイズと低データ環境下での過学習のため、標準的なモデルではその信号を捉えられないことが判明した。
モデル性能はグラフの品質に極めて敏感であることが示され、複数のデータソースを単純に統合しても、性能向上が保証されないことが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。