Skip to main content
QUICK REVIEW

[논문 리뷰] MinCall - MinION end2end convolutional deep learning basecaller

Neven Miculinić, Marko Ratković|arXiv (Cornell University)|2019. 04. 22.
Genomics and Phylogenetic Studies인용 수 5
한 줄 요약

MinCall은 옥스포드 나노포어 미노어 시퀀싱 데이터를 위한 엔드 투 엔드 컨volution 신경망(CNN) 기반 베이스콜러를 제안하며, 배치 정규화와 커넥티스트 텀포럴 클래식리피케이션(CTC) 손실을 활용하여 R9 화학 1D 리드를 사용해 대장균에서 91.4%의 중앙값 매칭률을 달성한다. 이는 기존의 HMM 및 RNN 기반 베이스콜러보다 잔차 CNN 아키텍처를 사용함으로써 순차적 문맥에 더 적게 의존하고 고도로 병렬 처리 가능한 방식으로 더 높은 성능을 낸다.

ABSTRACT

The Oxford Nanopore Technologies's MinION is the first portable DNA sequencing device. It is capable of producing long reads, over 100 kBp were reported. However, it has significantly higher error rate than other methods. In this study, we present MinCall, an end2end basecaller model for the MinION. The model is based on deep learning and uses convolutional neural networks (CNN) in its implementation. For extra performance, it uses cutting edge deep learning techniques and architectures, batch normalization and Connectionist Temporal Classification (CTC) loss. The best performing deep learning model achieves 91.4% median match rate on E. Coli dataset using R9 pore chemistry and 1D reads.

연구 동기 및 목표

  • 딥러닝을 활용하여 MinION 나노포어 시퀀싱 데이터를 위한 고정확도, 엔드 투 엔드 베이스콜러를 개발한다.
  • 특히 R9 화학에서 발생하는 높은 오류율(10% 이상)을 줄이기 위해 노력한다.
  • 베이스콜링에서 RNN이나 HMM 대신 컨volution 신경망(CNNs)을 사용하여 처리 속도 향상과 병렬 처리 능력을 향상시킨다.
  • 포어 너비에 의존하지 않으며 최소한의 특징 공학을 요구하는 모델을 구축한다.
  • 공개된 오픈소스 도구를 제공하여 이전의 MinION 데이터에 대해 후속 재베이스콜링을 가능하게 한다.

제안 방법

  • 모델는 72개의 잔차 블록, 배치 정규화(BN), 그리고 ELU 활성화 함수를 사용한 잔차 CNN 아키텍처를 사용한다.
  • 학습 중 예측 시퀀스를 기준 시퀀스와 정렬하기 위해 커넥티스트 텀포럴 클래식리피케이션(CTC) 손실을 적용한다.
  • 입력으로 주어진 원시 신호는 메트리코어 베이스콜링 이벤트 시작 시간을 기준으로 블록으로 분할되며, 각 블록은 평균 0, 분산 1로 정규화된다.
  • 목표 시퀀스는 CTC가 연속된 중복을 병합하는 것을 고려해 매번 반복되는 뉴클레오티드를 대체 기호로 교체함으로써 사전 처리된다.
  • 모델는 텐서플로우와 GPU 최적화된 warp-ctc CTC 손실 구현을 사용하여 학습된다.
  • 데이터 사전 처리에는 GraphMap를 사용한 리드의 대장균 기준 게놈에의 정렬이 포함되며, CIGAR 문자열에서 유도된 목표 시퀀스를 통해 메트리코어 오류를 보정한다.

실험 결과

연구 질문

  • RQ1잔차 CNN 기반 모델이 MinION R9 1D 리드에서 기존의 HMM 및 RNN 기반 접근법보다 더 높은 베이스콜링 정확도를 달성할 수 있는가?
  • RQ2CNN 기반 베이스콜러는 RNN에 비해 순차적 문맥에 더 적게 의존하고 학습 및 추론의 병렬 처리 능력을 향상시키는가?
  • RQ3최소한의 특징 공학을 통해 원시 신호에서 엔드 투 엔드로 학습된 모델이 포어 너비 가정 없이 전통적 방법보다 성능이 뛰어나게 될 수 있는가?
  • RQ4MinCall의 성능은 매칭률과 오류 프로파일 측면에서 메트리코어, 나노넷, 딥나노와 비교해 어떻게 되는가?
  • RQ5MinCall은 이전의 MinION 데이터에 적용했을 때 디 노보 게놈 어셈블리 및 공통 시퀀스 정확도의 품질을 향상시킬 수 있는가?

주요 결과

  • MinCall은 대장균 R9 1D 데이터셋에서 91.4%의 중앙값 매칭률을 달성했으며, 메트리코어(99.12% 매칭률이지만 더 높은 오류 프로파일)와 나노넷(97.97% 매칭률)을 능가했다.
  • 모델는 대장균 데이터셋에서 99.2361%의 매칭률을 기록했으며, SNP 비율은 0.6474%, 삽입 비율은 0.1165%, 삭제 비율은 0.5510%였다.
  • MinCall은 디 노보 어셈블리에서 뛰어난 성능을 보였으며, 공통 시퀀스의 평균 일치율이 99.06%이고 에디트 거리는 46,686이었으며, 메트리코어(60,418)와 나노넷(74,341)을 모두 능가했다.
  • 디 노보 어셈블리에서 MinCall은 메트리코어 대비 공통 정확도 1.5% 향상으로 더 높은 베이스콜링 정밀도를 보였다.
  • 모델는 순환 종속성이 없기 때문에 고도로 병렬 처리 가능한 아키텍처를 지녀, RNN 기반 모델 대비 더 빠른 추론 속도를 제공한다.
  • 모델는 오픈소스이며 MIT 라이선스에 따라 배포되며, 향후 공개된 데이터가 제공되면 R9.4 및 R9.5 화학으로의 적응이 가능할 전망이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.