[论文解读] Machine-Learning Driven Drug Repurposing for COVID-19
本研究提出一种机器学习方法,通过在病毒蛋白序列和已知抗病毒药物上训练人工神经网络,将现有药物重新用于治疗COVID-19。该模型预测出对SARS-CoV-2具有安全性和广谱活性的抗病毒药物,识别出12种候选药物,其中6种(洛匹那韦、利托那韦、利巴韦林、环孢素、雷帕霉素和尼扎氨酯)与临床研究结果一致。
The integration of machine learning methods into bioinformatics provides particular benefits in identifying how therapeutics effective in one context might have utility in an unknown clinical context or against a novel pathology. We aim to discover the underlying associations between viral proteins and antiviral therapeutics that are effective against them by employing neural network models. Using the National Center for Biotechnology Information virus protein database and the DrugVirus database, which provides a comprehensive report of broad-spectrum antiviral agents (BSAAs) and viruses they inhibit, we trained ANN models with virus protein sequences as inputs and antiviral agents deemed safe-in-humans as outputs. Model training excluded SARS-CoV-2 proteins and included only Phases II, III, IV and Approved level drugs. Using sequences for SARS-CoV-2 (the coronavirus that causes COVID-19) as inputs to the trained models produces outputs of tentative safe-in-human antiviral candidates for treating COVID-19. Our results suggest multiple drug candidates, some of which complement recent findings from noteworthy clinical studies. Our in-silico approach to drug repurposing has promise in identifying new drug candidates and treatments for other viruses.
研究动机与目标
- 通过机器学习加速SARS-CoV-2的药物重定位,识别出具有潜在疗效的现有抗病毒药物。
- 利用已知的药物-病毒相互作用数据,应对COVID-19大流行期间快速发现治疗药物的迫切需求。
- 开发一种可扩展的、基于计算机的分析流程,根据病毒蛋白组与已知靶标的相似性预测抗病毒候选药物。
- 通过排除高毒性或人类安全性数据不足的药物,优先选择临床上可行的药物。
提出的方法
- 使用病毒蛋白序列作为输入,FDA批准或临床安全的抗病毒药物作为输出,训练人工神经网络(ANN)模型。
- 利用NCBI病毒门户获取来自83种病毒物种的280万个病毒氨基酸序列,聚焦于非HIV/流感病毒株,以避免数据偏差。
- 采用DrugVirus数据库映射已知广谱抗病毒药物(BSAAs)及其在各类病毒中的抑制谱。
- 通过合并序列和元数据对数据进行预处理,仅保留II期至IV期及已批准的药物,并通过物种和序列长度去除重复项。
- 应用独热编码将氨基酸序列转换为数值向量以供模型输入。
- 在非SARS-CoV-2病毒蛋白上训练模型,并在SARS-CoV-2序列上测试预测结果,以识别药物重定位候选药物。
实验结果
研究问题
- RQ1基于与其他病毒的蛋白质组相似性,哪些现有抗病毒药物最有可能对SARS-CoV-2有效?
- RQ2在已知药物-病毒相互作用数据上训练的机器学习模型能否预测新的抗病毒药物重定位机会?
- RQ3该模型的预测结果与SARS-CoV-2的新兴临床研究和体外实验结果相比如何?
- RQ4这种基于计算机的分析方法在多大程度上可推广至其他病毒病原体?
主要发现
- 该模型识别出12种针对SARS-CoV-2的顶级抗病毒候选药物,其中6种(洛匹那韦、利托那韦、利巴韦林、环孢素、雷帕霉素和尼扎氨酯)得到后续体外实验或临床试验结果的支持。
- 该方法成功预测出具有已知安全性的抗病毒药物,表明其与现实世界研究结果高度一致。
- 该模型排除了未获批准用于人体的药物,确保预测结果具有临床相关性,并适合进一步研究。
- 该方法展现出良好的泛化能力,体现在其在二次实验中成功预测出对HSV-1有效的抗病毒药物。
- 该流程在处理大规模病毒蛋白组数据方面表现出高效性,并能生成可操作的药物重定位假设。
- 模型预测结果因其与已知抗病毒机制及临床证据的一致性,被验证为合理可信。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。