QUICK REVIEW

[論文レビュー] Inverse folding for antibody sequence design using deep learning

Frédéric A. Dreyer, Daniel Cutting|arXiv (Cornell University)|Oct 30, 2023

Monoclonal and Polyclonal Antibodies Research被引用数 19

ひとこと要約

著者らは ProteinMPNN をファインチューニングして AbMPNN を作成した。これは抗体特異的な逆折りたたみモデルで、特に CDR-H3 の配列回復とデザイン性を改善し、SAbDab および OAS由来データで訓練し、構造予測と Rosetta interface energy で評価する。

ABSTRACT

We consider the problem of antibody sequence design given 3D structural information. Building on previous work, we propose a fine-tuned inverse folding model that is specifically optimised for antibody structures and outperforms generic protein models on sequence recovery and structure robustness when applied on antibodies, with notable improvement on the hypervariable CDR-H3 loop. We study the canonical conformations of complementarity-determining regions and find improved encoding of these loops into known clusters. Finally, we consider the applications of our model to drug discovery and binder design and evaluate the quality of proposed sequences using physics-based methods.

研究の動機と目的

3D バックボーン構造からの抗体配列設計を動機づけ、検討する。
抗体データで ProteinMPNN をファインチューニングして抗体特異的な逆折りたたみモデルを開発する。
抗体の残基回復、デザイン性、および界面安定性の改善を評価する。
標準的な CDR ループエンコードとゲルライン分布の適合性を検討する。
下流の抗体設計および創薬アプリケーション向けのモデルウェイトを提供する。

提案手法

抗体向けに構造化グラフニューラルネットワークと順序非依存デコーディングを用いて ProteinMPNN アーキテクチャを適応させる。
2つの抗体データセット：SAbDab 抗原結合断片と OAS のペア鎖（重鎖・軽鎖）を ABodyBuilder2 によって予測したものをファインチューニングに用いる。
CD-HIT クラスタリングを用いて非冗長な訓練/検証/テスト分割を作成し、データセット分離を確保する。
Adam オプティマイザで訓練し、検証損失が停滞したときに学習率を減少させる（OAS: 10エポック後に factor 10; SAbDab: 10エポック後に factor 10）。
ABodyBuilder2 による構造予測後の自己整合性 RMSD でデザイン性を評価; Rosetta による界面エネルギーを評価; CDR 全域の残基回復を測定; SCALOP で標準的クラスター化を分析。

Figure 1: Overview of an antibody structure and its domains.

実験結果

リサーチクエスチョン

RQ1抗体特異的なファインチューニングは、一般的な ProteinMPNN と比較して抗体の CDR ループでアミノ酸配列回復を改善しますか？
RQ2構造の自己整合性と Rosetta 界面エネルギーで測定されるデザイン性に対して AbMPNN はどのような影響を与えますか？
RQ3AbMPNN は標準的な CDR ループ形状をより良く回復し、抗体のゲルライン分布と整合させることができますか？
RQ4抗体焦点訓練がフレームワークおよび CDR領域の有効性と ANARCI による注釈性に与える影響は何ですか？
RQ5このモデルは抗体創薬およびバインダ設計アプリケーションをどれだけ効果的にサポートできますか？

主な発見

AbMPNN は ProteinMPNN と比べて中央値 CDR-H3 RMSD 自己整合性が約 20% 改善される。
40% の AbMPNN 配列はネイティブ配列からの界面エネルギー差が 5 kcal/mol以内は 40%、ProteinMPNN は 20.5%。
CDR ループ全体の配列回復は AbMPNN で約 60%、ProteinMPNN で約 40%。
AbMPNN は非 H3 CDR に関して canonical cluster の回復で大きな改善を達成。
すべての AbMPNN 予測は ANARCI によって抗体として認識されるが、ProteinMPNN 予測はフレームワークエラーのため 16.8% が注釈対象外となる。
AbMPNN でゲルライン適合分布が改善され、ProteinMPNN で観察された ANARCI 注釈失敗を減少させる。

Figure 2: Schematic representation of the data processing steps and model architecture.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。