QUICK REVIEW

[논문 리뷰] Machine learning in protein engineering

Kevin Yang, Zachary Wu|arXiv (Cornell University)|2018. 11. 27.

Protein Structure and Dynamics참고 문헌 91인용 수 10

한 줄 요약

이 논문은 기계학습(ML)을 활용한 유도적 진화를 단백질 공학의 새로운 범주로 제안하며, 세부 기계적 모델이 필요하지 않은 데이터 기반의 단백질 기능 최적화를 가능하게 한다. 실험 데이터에서 아미노산 서열-기능 관계를 학습함으로써, 반복적인 예측과 선택을 통해 개선된 단백질 변종을 가속화하여 발견할 수 있으며, 두 가지 사례 연구를 통해 검증되었고, 새로운 단백질 기능을 밝혀내는 데도 잠재력이 있다.

ABSTRACT

Machine learning (ML)-guided directed evolution is a new paradigm for biological design that enables optimization of complex functions. ML methods use data to predict how sequence maps to function without requiring a detailed model of the underlying physics or biological pathways. To demonstrate ML-guided directed evolution, we introduce the steps required to build ML sequence-function models and use them to guide engineering, making recommendations at each stage. This review covers basic concepts relevant to using ML for protein engineering as well as the current literature and applications of this new engineering paradigm. ML methods accelerate directed evolution by learning from information contained in all measured variants and using that information to select sequences that are likely to be improved. We then provide two case studies that demonstrate the ML-guided directed evolution process. We also look to future opportunities where ML will enable discovery of new protein functions and uncover the relationship between protein sequence and function.

연구 동기 및 목표

기존의 시행착오 방식을 대체하거나 보완함으로써 기계학습을 단백질 공학의 核심 도구로 정립하기 위해.
생물학적 경로가 잘 이해되지 않거나 또는 기본 원리에서 모델링하기에 너무 복잡한 복잡한 단백질 기능을 최적화하는 데 도전하기 위해.
모든 측정된 변종에서 실험 데이터를 학습하여 우수한 단백질 서열의 선택을 안내할 수 있는 기계학습 모델이 어떻게 작동하는지 보여주기 위해.
단백질 공학 워크플로우에서 기계학습 서열-기능 모델을 구축하고 적용하기 위한 실용적 프레임워크를 제공하기 위해.
기계학습이 새로운 단백질 기능을 발견하고 서열-구조-기능 관계를 밝혀내는 데 어떻게 활용될 수 있는지 탐색하기 위해.

제안 방법

단백질 변종의 실험 데이터를 사용하여 기계학습 서열-기능 모델을 개발하여 아미노산 서열과 기능 결과 간의 맵핑을 학습하기 위해.
일반화 성능 향상을 위해 단백질 서열에서 의미 있는 특징을 추출하기 위해 전이 학습 및 표현 학습 기법을 적용하기 위해.
비용이 많이 드는 걸러내기 작업을 최소화하기 위해 반복적으로 가장 정보가 많은 단백질 변종을 실험 테스트 대상으로 선택하기 위해 활성 학습 전략을 사용하기 위해.
신뢰도가 낮은 예측과 함께 높은 향상 예측을 보이는 서열을 우선시하기 위해 예측에 불확실성 추정을 통합하기 위해.
서열과 기능 간의 복잡한 비선형 관계를 포착하기 위해 앙상블 모델과 신경망을 활용하기 위해.
새로운 실험 결과를 다시 학습 및 보완하는 데 사용함으로써 지속적인 향상을 가능하게 하는 피드백 루프를 구현하기 위해.

실험 결과

연구 질문

RQ1기초 생물학적 메커니즘에 대한 깊은 지식이 없이도 기계학습이 어떻게 복잡한 단백질 기능의 최적화를 가속화할 수 있는가?
RQ2서열 데이터로부터 단백질 기능을 예측하는 효과적인 기계학습 모델을 구축하기 위해 필요한 핵심 단계와 구성 요소는 무엇인가?
RQ3기계학습 기반 유도적 진화는 전통적인 유도적 진화에 비해 효율성과 성공률 측면에서 어떻게 다를까?
RQ4기계학습을 단백질 공학 워크플로우에 구현하기 위한 실용적인 워크플로우와 최선의 실천 방법은 무엇인가?
RQ5기계학습이 단백질 기능을 발견하고 서열-구조-기능 관계를 이해하는 데 미래에 어떤 기회를 제공할 수 있는가?

주요 결과

모든 측정된 데이터를 학습하고 높은 잠재력이 있는 후보로 선택을 이끄는 방식으로, 기계학습 기반 유도적 진화는 개선된 단백질 변종을 식별하는 데 상당한 가속 효과를 보였다.
단백질 접힘 또는 생화학적 경로에 대한 세부 모델이 필요 없이도 기능 최적화가 가능하여, 고비용·고시간 실험에 대한 의존도를 낮추었다.
두 사례 연구를 통해 기계학습 기반 프로세스가 실제 단백질 공학 응용 분야에서 실현 가능하고 효과적임을 입증하였다.
불확실성 인식 예측의 통합은 서열 공간 탐색을 향상시켜 새로운 功能적 변종을 발견하는 데 기여하였다.
기계학습 모델은 기존 실험 설계로는 감지하기 어려운 복잡한 비선형 서열-기능 관계를 밝혀낼 수 있었다.
미래의 단백질 공학 분야에서 기계학습의 응용은 완전히 새로운 단백질 기능을 발견하고 서열-구조-기능 지도에 대한 이해를 심화하는 데 기여할 것으로 기대된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.