QUICK REVIEW

[論文レビュー] Machine learning in protein engineering

Kevin Yang, Zachary Wu|arXiv (Cornell University)|Nov 27, 2018

Protein Structure and Dynamics参考文献 91被引用数 10

ひとこと要約

本論文は、詳細なメカニズム的モデルを必要とせずにタンパク質機能のデータ駆動型最適化を可能にする、機械学習（ML）ガイドドの指向的進化を新しいパラダイムとして提案する。実験データから配列-機能関係を学習することで、反復的な予測と選択を経て、優れたタンパク質バリアントの発見を加速する。2つの事例研究でその有効性が示され、未知のタンパク質機能の解明にも応用可能である。

ABSTRACT

Machine learning (ML)-guided directed evolution is a new paradigm for biological design that enables optimization of complex functions. ML methods use data to predict how sequence maps to function without requiring a detailed model of the underlying physics or biological pathways. To demonstrate ML-guided directed evolution, we introduce the steps required to build ML sequence-function models and use them to guide engineering, making recommendations at each stage. This review covers basic concepts relevant to using ML for protein engineering as well as the current literature and applications of this new engineering paradigm. ML methods accelerate directed evolution by learning from information contained in all measured variants and using that information to select sequences that are likely to be improved. We then provide two case studies that demonstrate the ML-guided directed evolution process. We also look to future opportunities where ML will enable discovery of new protein functions and uncover the relationship between protein sequence and function.

研究の動機と目的

従来の試行錯誤的手法に代わるか補完する形で、機械学習をタンパク質工学の根幹的ツールとするために、その確立を目的とする。
生物学的経路が十分に理解されていない、あるいは第一原理からモデル化が極めて複雑なタンパク質機能の最適化という課題に対処することを目的とする。
実験的に測定されたすべてのバリアントから得られるデータを活用して、MLモデルが優れたタンパク質配列の選択を効果的にガイドできる仕組みを示すこと。
タンパク質工学ワークフローにおいてMLシーケンス-機能モデルを構築・適用するための実用的フレームワークを提供すること。
MLが未知のタンパク質機能の発見や、配列-構造-機能関係の解明にどのように貢献できるかを探索すること。

提案手法

タンパク質バリアントからの実験データを用いて、アミノ酸配列と機能的アウトカムの間のマッピングを学習するMLシーケンス-機能モデルの構築。
一般化性能の向上を図るため、トランスファー学習および表現学習技術を用いてタンパク質配列から意味のある特徴を抽出。
コストの高いスクリーニングを最小限に抑えるために、反復的に情報量の多いタンパク質バリアントを選択するアクティブラーニング戦略の適用。
予測の不確実性を推定し、予測された改善度が高くかつ予測の信頼性が低い配列を優先して選択。
シーケンスと機能の間の複雑な非線形関係を捉えるために、アンサンブルモデルおよびニューラルネットワークの活用。
新しい実験結果を再訓練やモデルの精練に活用するフィードバックループを実装し、継続的な改善を可能にする。

実験結果

リサーチクエスチョン

RQ1詳細な生物学的メカニズムの知識がなくても、機械学習がどのように複雑なタンパク質機能の最適化を加速できるか。
RQ2配列データからタンパク質機能を予測する有効なMLモデルを構築するために必要な主要なステップと構成要素は何か。
RQ3MLガイドドの指向的進化は、従来の指向的進化と比較して、どの程度効率的で成功確率が高いか。
RQ4タンパク質工学パイプラインにMLを実装するための実用的ワークフローとベストプラクティスは何か。
RQ5今後のタンパク質工学におけるMLの応用の可能性として、未知のタンパク質機能の発見や、配列-構造-機能関係の理解を深める点で何が期待できるか。

主な発見

MLガイドドの指向的進化は、すべての測定済みデータから学習し、有望な候補に向けた選択をガイドすることで、改善されたタンパク質バリアントの特定を著しく加速する。
タンパク質折りたたみや生化学的経路の詳細なモデルが不要であるため、高価で時間がかかる実験に依存するのを軽減できる。
2つの事例研究により、MLガイドドのプロセスが実世界のタンパク質工学応用において実用的かつ効果的であることが実証された。
不確実性を考慮した予測の統合により、配列空間の探索が強化され、新しい機能的バリアントの発見が促進された。
MLモデルは、従来の実験的デザインでは捉えにくい複雑な非線形な配列-機能関係を解明できる。
今後のタンパク質工学におけるMLの応用は、まったく新しいタンパク質機能の発見や、配列-構造-機能のランドスケープを深く理解する可能性を秘めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。