[論文レビュー] MinCall - MinION end2end convolutional deep learning basecaller
MinCallは、バッチ正規化とコネクティスト・テンポラル・クラスフィケーション(CTC)損失を活用した、オックスフォードナノポアのMinIONシーケンシングデータを対象としたエンドツーエンドの畳み込みニューラルネットワーク(CNN)ベースのベースキャラーを提案する。R9化学1Dリードを用いたE. coliにおいて91.4%の中央値マッチレートを達成し、従来のHMMおよびRNNベースのベースキャラーを上回る。これは、逐次的文脈に依存しにくく、並列処理に適したリーマンドCNNアーキテクチャを採用しているためである。
The Oxford Nanopore Technologies's MinION is the first portable DNA sequencing device. It is capable of producing long reads, over 100 kBp were reported. However, it has significantly higher error rate than other methods. In this study, we present MinCall, an end2end basecaller model for the MinION. The model is based on deep learning and uses convolutional neural networks (CNN) in its implementation. For extra performance, it uses cutting edge deep learning techniques and architectures, batch normalization and Connectionist Temporal Classification (CTC) loss. The best performing deep learning model achieves 91.4% median match rate on E. Coli dataset using R9 pore chemistry and 1D reads.
研究の動機と目的
- MinIONナノポアシーケンシングデータに対して、高精度でエンドツーエンドのベースキャラーをディープラーニングを用いて開発すること。
- 特にR9化学において顕著な高エラー率(10%以上)を是正すること。
- RNNやHMMの代替として畳み込みニューラルネットワーク(CNN)をベースキャリングに用いることの有効性を検証し、処理速度と並列処理性を向上させること。
- ポア幅の仮定に依存せず、最小限の特徴工学的処理で動作するモデルを構築すること。
- 公開されたオープンソースツールを提供することで、過去のMinIONデータに対するリトロスペクティブな再ベースキャリングを可能にすること。
提案手法
- モデルは、72個のリーマンドブロック、バッチ正規化(BN)、およびELU活性化関数を備えたリーマンドCNNアーキテクチャを採用している。
- トレーニング中に予測シーケンスとリファレンスシーケンスを一致させるために、コネクティスト・テンポラル・クラスフィケーション(CTC)損失を用いている。
- 入力の生信号は、Metrichorがベースキャリングしたイベントの開始時刻に基づいてブロックに分割され、各ブロックは平均0、分散1に正規化される。
- ターゲットシーケンスは、CTCが連続する重複を統合するための対処として、2つに1つの繰り返しヌクレオチドを代替文字に置き換えることで事前処理される。
- モデルはTensorFlowを用いてトレーニングされ、GPU最適化されたwarp-ctc CTC損失実装が使用されている。
- データ前処理には、GraphMapを用いたリードのE. coliリファレンスへのアラインメントが含まれており、ターゲットシーケンスはCIGAR文字列から導出され、Metrichorのエラーを是正する。
実験結果
リサーチクエスチョン
- RQ1リーマンドCNNベースのモデルは、MinION R9 1Dリードにおいて、従来のHMMおよびRNNベースのアプローチを上回るベースキャリング精度を達成できるか?
- RQ2CNNベースのベースキャラーは、RNNと比較して逐次的文脈に依存しにくく、トレーニングおよび推論における並列処理性が向上するか?
- RQ3最小限の特徴工学的処理で生信号にエンドツーエンドにトレーニングされたモデルは、ポア幅の仮定に依存せず、従来の手法を上回る性能を発揮できるか?
- RQ4MinCallのマッチレートおよびエラープロファイルは、Metrichor、Nanonet、およびDeepNanoと比較してどのように異なるか?
- RQ5MinCallは、過去のMinIONデータに適用することで、デノボゲノムアセンブリおよびコンSENSUS配列の正確性を向上させられるか?
主な発見
- MinCallは、E. coli R9 1Dデータセットにおいて91.4%の中央値マッチレートを達成し、Metrichor(99.12%のマッチレートだが、より高いエラープロファイル)およびNanonet(97.97%のマッチレート)を上回った。
- モデルはE. coliデータセットで99.2361%のマッチレートを示し、SNPレート0.6474%、挿入レート0.1165%、欠失レート0.5510%を記録した。
- MinCallはデノボアセンブリにおいて優れた性能を示し、平均相同性99.06%、エディットディスタンス46,686を達成した。これは、Metrichor(60,418のエディットディスタンス)およびNanonet(74,341のエディットディスタンス)を上回った。
- デノボアセンブリにおいてMinCallはMetrichorよりも1.5%のコンセンサス正確性の向上を示し、より優れたベースキャリング忠実性を示した。
- モデルは再帰的依存性が存在しないため、並列処理に非常に適しており、RNNベースのモデルと比較してより高速な推論が可能である。
- モデルはオープンソースであり、MITライセンスで公開されており、将来的にR9.4およびR9.5化学が公開され次第、それらへの適応が可能となる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。