QUICK REVIEW

[논문 리뷰] Machine-Learning Driven Drug Repurposing for COVID-19

Semih Cantürk, Aman Singh|arXiv (Cornell University)|2020. 06. 25.

Computational Drug Discovery Methods인용 수 6

한 줄 요약

이 연구는 바이러스 단백질 서열과 알려진 항바이러스제를 기반으로 인공 신경망을 훈련시켜 기존 약물을 코로나19에 재활용하기 위한 기계 학습 접근법을 제안한다. 모델은 SARS-CoV-2에 효과적인 안전하고 광범위한 항바이러스제를 예측하며, 12개의 최상위 후보 약물을 특정화한다. 이 중 6개는 로피나비르, 리토나비르, 리바비린, 사이클로스포린, 라파미신, 니타조나이드와 임상 결과와 일치한다.

ABSTRACT

The integration of machine learning methods into bioinformatics provides particular benefits in identifying how therapeutics effective in one context might have utility in an unknown clinical context or against a novel pathology. We aim to discover the underlying associations between viral proteins and antiviral therapeutics that are effective against them by employing neural network models. Using the National Center for Biotechnology Information virus protein database and the DrugVirus database, which provides a comprehensive report of broad-spectrum antiviral agents (BSAAs) and viruses they inhibit, we trained ANN models with virus protein sequences as inputs and antiviral agents deemed safe-in-humans as outputs. Model training excluded SARS-CoV-2 proteins and included only Phases II, III, IV and Approved level drugs. Using sequences for SARS-CoV-2 (the coronavirus that causes COVID-19) as inputs to the trained models produces outputs of tentative safe-in-human antiviral candidates for treating COVID-19. Our results suggest multiple drug candidates, some of which complement recent findings from noteworthy clinical studies. Our in-silico approach to drug repurposing has promise in identifying new drug candidates and treatments for other viruses.

연구 동기 및 목표

기존 항바이러스제의 효능 잠재력을 식별하기 위해 SARS-CoV-2에 대한 약물 재활용을 가속화하기 위해 기계 학습을 활용한다.
코로나19 패닉 기간 동안 신속한 치료제 발견이 급한 필요성을 충족시키기 위해 알려진 약물-바이러스 상호작용 데이터를 활용한다.
바이러스 단백질 게놈 유사성 기반으로 항바이러스 후보를 예측하는 확장 가능한, 시뮬레이션 기반 파ip라인을 개발한다.
높은 독성 또는 낮은 인간 안전성 데이터를 가진 약물을 제외하여 임상적으로 실현 가능한 약물을 우선순위로 정한다.

제안 방법

바이러스 단백질 서열을 입력으로, FDA 승인 또는 임상적으로 안전한 항바이러스제를 출력으로 사용해 인공 신경망(ANN) 모델을 훈련시켰다.
83개 바이러스 종에서 280만 개의 바이러스 아미노산 서열을 확보하기 위해 NCBI 바이러스 포털을 활용했으며, 데이터 편향을 방지하기 위해 HIV 및 인플루엔자 유사체를 제외했다.
기존 광범위한 항바이러스제(광역 항바이러스제, BSAAs)와 그들이 바이러스에 대해 나타내는 억제 프로필을 매핑하기 위해 DrugVirus 데이터베이스를 사용했다.
서열과 메타데이터를 통합하고, 단계 II~IV 및 승인된 약물에 한정하여 필터링하며, 종과 서열 길이 기반으로 중복 항목을 제거하여 데이터 전처리를 수행했다.
모델 입력을 위해 아미노산 서열을 수치 벡터로 변환하기 위해 원-핫 인코딩을 적용했다.
SARS-CoV-2 외의 바이러스 단백질에 대해 모델을 훈련하고, SARS-CoV-2 서열에 대해 예측을 시험함으로써 약물 재활용 후보를 식별했다.

실험 결과

연구 질문

RQ1기타 바이러스와의 단백질 유사성 기반으로 SARS-CoV-2에 대해 효과적일 가능성이 높은 기존 항바이러스제는 무엇인가?
RQ2기존 약물-바이러스 상호작용 데이터를 기반으로 훈련된 기계 학습 모델이 새로운 항바이러스 재활용 기회를 예측할 수 있는가?
RQ3모델의 예측 결과는 SARS-CoV-2에 대한 최신 임상 및 in vitro 연구 결과와 어떻게 비교되는가?
RQ4이 시뮬레이션 기반 접근법은 다른 바이러스 병원체로 일반화될 수 있는가?

주요 결과

모델은 SARS-CoV-2에 대해 12개의 최상위 항바이러스 후보를 특정화했으며, 이 중 로피나비르, 리토나비르, 리바비린, 사이클로스포린, 라파미신, 니타조나이드 등 6개는 후속 in vitro 또는 임상 시험 결과와 일치한다.
이 접근법은 기존에 안전성이 입증된 항바이러스제를 성공적으로 예측하여 실제 연구 결과와의 일치를 보였다.
모델은 인간 사용이 승인되지 않은 약물을 배제하여 예측 결과가 임상적으로 관련성 있고 향후 연구에 적합한 안전성을 확보했다.
이차 실험에서 헤르페스 심플렉스 바이러스-1(HSV-1)에 효과적인 항바이러스제를 성공적으로 예측함으로써 일반화 가능성의 증거를 제시했다.
대규모 바이러스 단백질 게놈 데이터를 처리하고 실질적인 약물 재활용 가설을 생성하는 데 효율성을 보였다.
모델의 예측 결과는 알려진 항바이러스 작용 기전과 임상 증거와의 일치성으로 인해 타당성이 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.