Skip to main content
QUICK REVIEW

[論文レビュー] Identifying viruses from metagenomic data by deep learning

Jie Ren, Kai Song|arXiv (Cornell University)|Jun 20, 2018
Bacteriophages and microbial interactions参考文献 30被引用数 26
ひとこと要約

DeepVirFinderは、リファレンスフリーかつアライメントフリーなディープラーニング手法であり、ウイルス由来k-mer頻度を用いてトレーニングされた畳み込みニューラルネットワークを用いてメタゲノムデータ内のウイルス配列を同定する。この手法は、全長のコンティグでVirFinderを上回り、大腸がん患者から175個のウイルスバインを同定した。そのうち10個のバインはがん状態と有意に関連しており、非侵襲的診断が可能である。

ABSTRACT

The recent development of metagenomic sequencing makes it possible to sequence microbial genomes including viruses in an environmental sample. Identifying viral sequences from metagenomic data is critical for downstream virus analyses. The existing reference-based and gene homology-based methods are not efficient in identifying unknown viruses or short viral sequences. Here we have developed a reference-free and alignment-free machine learning method, DeepVirFinder, for predicting viral sequences in metagenomic data using deep learning techniques. DeepVirFinder was trained based on a large number of viral sequences discovered before May 2015. Evaluated on the sequences after that date, DeepVirFinder outperformed the state-of-the-art method VirFinder at all contig lengths. Enlarging the training data by adding millions of purified viral sequences from environmental metavirome samples significantly improves the accuracy for predicting under-represented viruses. Applying DeepVirFinder to real human gut metagenomic samples from patients with colorectal carcinoma (CRC) identified 51,138 viral sequences belonging to 175 bins. Ten bins were associated with the cancer status, indicating their potential use for non-invasive diagnosis of CRC. In summary, DeepVirFinder greatly improved the precision and recall rates of viral identification, and it will significantly accelerate the discovery rate of viruses.

研究の動機と目的

  • メタゲノムデータ内のウイルス配列をリファレンスフリーかつアライメントフリーに同定する手法の開発。
  • 従来の相同性ベース手法が見逃す未知および短いウイルスコンティグの検出を改善すること。
  • 大規模なウイルス配列データを用いたディープラーニングにより、ウイルス同定の精度を向上させること。
  • ウイルス配列と疾患状態の関連性を活用し、非侵襲的の大腸がん(CRC)診断を可能にすること。
  • トレーニングに環境メタウイルロームデータを組み込むことで、低頻度のウイルス群の検出を拡張すること。

提案手法

  • ウイルス由来および非ウイルス由来配列のk-mer頻度パターンを用いてトレーニングされた畳み込みニューラルネットワーク(CNN)を用い、メタゲノムコンティグをウイルス性または非ウイルス性に分類する。
  • RefSeqのウイルス配列と、環境メタウイルロームデータセット(例:IBD、SAM、TOV、健康な腸)から得られた数百万個の純度の高いウイルスコンティグを含む大規模なトレーニングセットを用いた。
  • 低頻度のウイルス家族の検出を向上させるために、メタウイルローム由来のウイルス配列を組み込んだデータオーグメンテーションを実施した。
  • COCACOLAを用いて予測されたウイルスコンティグを、配列類似性と発現度に基づき175のバインにクラスタリングした。
  • bowtie2を用いてリードをバインにマッピングし、RPKMを計算して発現量を定量化した。
  • RPKM値を予測変数として用い、L1正則化を施したロジスティック回帰を適用し、CRC状態と有意に関連するバインを同定した。

実験結果

リサーチクエスチョン

  • RQ1ディープラーニングモデルは、既存のリファレンスベースおよび相同性ベース手法を上回り、メタゲノムデータからのウイルス配列同定を実現できるか?
  • RQ2トレーニングに環境メタウイルローム配列を組み込むことで、低頻度のウイルス家族の検出がどの程度向上するか?
  • RQ3DeepVirFinderが同定したウイルスコンティグは、生物学的に意味のあるバインにグループ化可能であり、疾患状態と相関するか?
  • RQ4特定のウイルスバインは、ヒト腸メタゲノムにおける大腸がん(CRC)状態と有意に関連しているか?
  • RQ5DeepVirFinderは、ウイルスシグネチャの検出を活用して、非侵襲的大腸がん診断を可能にするか?

主な発見

  • DeepVirFinderは、2015年5月以降の配列において、全コンティグ長でVirFinderを上回り、優れた正確性と再現率を示した。
  • トレーニングに環境メタウイルローム配列を組み込むことで、低頻度のウイルス家族の検出精度が顕著に向上した。
  • DeepVirFinderは、大腸がん患者のヒト腸メタゲノムから、175のコンティグバインに属する合計51,138個のウイルス配列を同定した。
  • 10個のウイルスバイン(B19、B60、B61、B218、B227など)はCRC状態と有意に関連しており、回帰係数は-0.3475から0.1764の範囲に分布した。
  • バイニング解析により、175個のウイルスバインのうち31.1%~96.15%のコンティグにタンパク質が存在し、上位ヒットにはフェージ関連タンパク質や未分類フェージが含まれた。
  • ウイルスバインのRPKM値を用いたL1正則化を施したロジスティック回帰モデルは、CRC状態予測において有意な分類性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。