[论文解读] MinCall - MinION end2end convolutional deep learning basecaller
MinCall 提出了一种基于卷积神经网络(CNN)的端到端测序基序分析器,用于牛津纳米孔 MinION 测序数据,利用批量归一化和序列分类连接主义损失(CTC loss)在使用 R9 化学 1D 读取数据的 E. coli 上实现了 91.4% 的中位匹配率。与现有的 HMM 和 RNN 基序分析器相比,它通过采用具有高度并行性的残差 CNN 架构,减少了对序列上下文的依赖,从而提升了性能。
The Oxford Nanopore Technologies's MinION is the first portable DNA sequencing device. It is capable of producing long reads, over 100 kBp were reported. However, it has significantly higher error rate than other methods. In this study, we present MinCall, an end2end basecaller model for the MinION. The model is based on deep learning and uses convolutional neural networks (CNN) in its implementation. For extra performance, it uses cutting edge deep learning techniques and architectures, batch normalization and Connectionist Temporal Classification (CTC) loss. The best performing deep learning model achieves 91.4% median match rate on E. Coli dataset using R9 pore chemistry and 1D reads.
研究动机与目标
- 开发一种基于深度学习的高精度端到端基序分析器,用于 MinION 纳米孔测序数据。
- 降低 MinION 测序固有的高错误率(10% 或以上),尤其是在使用 R9 化学时。
- 探索使用卷积神经网络(CNN)作为 RNN 或 HMM 的替代方案用于基序分析,以提升速度和并行化能力。
- 构建一种不依赖孔径宽度且需要极少特征工程的模型。
- 通过提供灵活且开源的工具,实现对旧版 MinION 数据的回溯性重新基序分析。
提出的方法
- 该模型采用包含 72 个残差块的残差 CNN 架构,结合批量归一化(BN)和 ELU 激活函数。
- 采用序列分类连接主义损失(CTC loss)在训练过程中将预测序列与参考序列对齐。
- 输入的原始信号根据 Metrichor 基序分析事件的起始时间分块,每一块均被归一化为零均值和单位方差。
- 目标序列通过将每个重复出现的核苷酸(每隔一个)替换为替代符号进行预处理,以处理 CTC 对相邻重复的合并问题。
- 模型使用 TensorFlow 训练,并采用 GPU 优化的 warp-ctc CTC 损失实现。
- 数据预处理包括使用 GraphMap 将读取序列比对到 E. coli 参考基因组,目标序列则从 CIGAR 字符串中提取,以纠正 Metrichor 的错误。
实验结果
研究问题
- RQ1基于残差 CNN 的模型是否能在 MinION R9 1D 读取数据上实现比现有 HMM 和 RNN 方法更高的基序分析准确率?
- RQ2与 RNN 相比,基于 CNN 的基序分析器是否能降低对序列上下文的依赖,并提升训练和推理的并行化能力?
- RQ3在原始信号上端到端训练、仅需极少特征工程的模型是否能超越传统方法,且不依赖孔径宽度假设?
- RQ4MinCall 在匹配率和错误特征方面与 Metrichor、Nanonet 和 DeepNano 相比表现如何?
- RQ5当应用于旧版 MinION 数据时,MinCall 是否能提升从头基因组组装和共识序列的准确性?
主要发现
- MinCall 在 E. coli R9 1D 数据集上实现了 91.4% 的中位匹配率,优于 Metrichor(99.12% 匹配率但错误特征更高)和 Nanonet(97.97% 匹配率)。
- 该模型在 E. coli 数据集上表现出 99.2361% 的匹配率,仅含 0.6474% 的 SNP 率、0.1165% 的插入率和 0.5510% 的缺失率。
- MinCall 在从头组装中表现更优,生成的共识序列平均身份为 99.06%,编辑距离为 46,686,优于 Metrichor(60,418 的编辑距离)和 Nanonet(74,341 的编辑距离)。
- 在从头组装中,MinCall 相较 Metrichor 在共识准确性上提升了 1.5%,表明其基序分析保真度更高。
- 由于架构中不存在循环依赖,MinCall 的模型具有高度并行性,因此推理速度优于基于 RNN 的模型。
- 该模型为开源,采用 MIT 许可证,当公开数据可用时,可轻松适配至更新的 R9.4 和 R9.5 化学版本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。