Skip to main content
QUICK REVIEW

[논문 리뷰] Identifying viruses from metagenomic data by deep learning

Jie Ren, Kai Song|arXiv (Cornell University)|2018. 06. 20.
Bacteriophages and microbial interactions참고 문헌 30인용 수 26
한 줄 요약

DeepVirFinder는 바이러스 k-mer 빈도로 훈련된 컨volutional 신경망을 사용하여 메타게놈 데이터에서 바이러스성 서열을 식별하는 레퍼런스 기반 및 어레이너 기반의 딥러닝 방법이다. 이는 모든 컨티그 길이에서 VirFinder를 능가했으며, 대장직장암 환자에서 175개의 바이러스성 밴드를 식별했으며, 그 중 10개가 암 상태와 유의미하게 연관되어 있어 비침습적 진단이 가능하다.

ABSTRACT

The recent development of metagenomic sequencing makes it possible to sequence microbial genomes including viruses in an environmental sample. Identifying viral sequences from metagenomic data is critical for downstream virus analyses. The existing reference-based and gene homology-based methods are not efficient in identifying unknown viruses or short viral sequences. Here we have developed a reference-free and alignment-free machine learning method, DeepVirFinder, for predicting viral sequences in metagenomic data using deep learning techniques. DeepVirFinder was trained based on a large number of viral sequences discovered before May 2015. Evaluated on the sequences after that date, DeepVirFinder outperformed the state-of-the-art method VirFinder at all contig lengths. Enlarging the training data by adding millions of purified viral sequences from environmental metavirome samples significantly improves the accuracy for predicting under-represented viruses. Applying DeepVirFinder to real human gut metagenomic samples from patients with colorectal carcinoma (CRC) identified 51,138 viral sequences belonging to 175 bins. Ten bins were associated with the cancer status, indicating their potential use for non-invasive diagnosis of CRC. In summary, DeepVirFinder greatly improved the precision and recall rates of viral identification, and it will significantly accelerate the discovery rate of viruses.

연구 동기 및 목표

  • 메타게놈 데이터에서 바이러스성 서열을 식별하기 위한 레퍼런스 기반 및 어레이너 기반의 방법을 개발하기 위해.
  • 기존의 동형성 기반 방법이 놓치는 미지의 짧은 바이러스성 컨티그의 검출을 향상시키기 위해.
  • 대규모 바이러스 서열 데이터를 기반으로 딥러닝을 활용하여 바이러스 식별 정확도를 향상시키기 위해.
  • 바이러스 서열을 질병 상태와 연관지켜 비침습적 대장직장암(CRC) 진단을 가능하게 하기 위해.
  • 훈련에 환경적 메타비롬 데이터를 포함시켜 미흡하게 표현된 바이러스 군집의 검출 범위를 확장하기 위해.

제안 방법

  • 바이러스성 및 비바이러스성 서열의 k-mer 빈도 패턴을 기반으로 컨볼루션 신경망(CNN)을 훈련하여 메타게놈 컨티그를 바이러스성 또는 비바이러스성으로 분류하기 위해.
  • RefSeq의 바이러스 서열과 환경 메타비롬 데이터셋(예: IBD, SAM, TOV, 건강한 장)에서 추출한 수백만 개의 순수화된 바이러스성 컨티그를 포함한 대규모 훈련 세트를 사용하기 위해.
  • 저표현 바이러스 가족의 검출을 향상시키기 위해 메타비롬 유래 바이러스 서열을 통합하여 데이터 증강을 수행하기 위해.
  • 시퀀스 유사성과 발현도를 기반으로 예측된 바이러스성 컨티그를 COCACOLA을 사용해 175개의 밴드로 군집화하기 위해.
  • 읽기들을 바이러스성 밴드에 매핑하고 RPKM를 계산하여 발현도를 정량화하기 위해 bowtie2를 사용하기 위해.
  • RPKM 값을 예측 변수로 사용하여 CRC 상태와의 유의미한 연관성을 식별하기 위해 L1 페널티를 적용한 로지스틱 회귀를 적용하기 위해.

실험 결과

연구 질문

  • RQ1딥러닝 모델이 기존의 레퍼런스 기반 및 동형성 기반 방법보다 메타게놈 데이터에서 바이러스성 서열을 식별하는 데에서 뛰어난 성능을 보일 수 있는가?
  • RQ2훈련에 환경적 메타비롬 서열을 통합할 경우, 낮은 표현 수준을 보이는 바이러스 가족의 검출에 얼마나 기여하는가?
  • RQ3DeepVirFinder가 식별한 바이러스성 컨티그는 생물학적으로 의미 있는 밴드로 군집화될 수 있으며, 질병 상태와 연관되는가?
  • RQ4특정 바이러스성 밴드는 인간 장 메타게놈에서 대장직장암(CRC) 상태와 유의미하게 연관되어 있는가?
  • RQ5DeepVirFinder는 바이러스 서명 탐지에 의해 비침습적 CRC 진단을 가능하게 할 수 있는가?

주요 결과

  • DeepVirFinder는 2015년 5월 이후의 서열에서 모든 컨티그 길이에서 VirFinder를 능가했으며, 뛰어난 정밀도와 재현율을 보였다.
  • 훈련에 환경적 메타비롬 서열을 통합함으로써 낮은 표현 수준의 바이러스 가족 검출 정확도가 유의미하게 향상되었다.
  • DeepVirFinder는 대장직장암 환자의 인간 장 메타게놈에서 총 175개의 컨티그 밴드에 속하는 51,138개의 바이러스성 서열을 식별했다.
  • 10개의 바이러스성 밴드(B19, B60, B61, B218, B227 등)는 CRC 상태와 유의미하게 연관되어 있었으며, 계수는 -0.3475에서 0.1764 사이였다.
  • 밴딩 분석 결과, 175개의 바이러스성 밴드 중 31.1%에서 96.15%의 컨티그에 단백질이 포함되어 있었으며, 상위 히트로 프라즈 관련 단백질과 미분류된 프라즈가 포함되어 있었다.
  • 바이러스성 밴드의 RPKM 값을 기반으로 한 로지스틱 회귀 모델은 L1 정규화 모델링을 통해 CRC 상태 예측에 뚜렷한 분류 성능를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.