Skip to main content
QUICK REVIEW

[논문 리뷰] PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Shaoqing Tang, Yinuo Zhang|arXiv (Cornell University)|2024. 12. 23.
Protein purification and stability인용 수 6
한 줄 요약

PepTune은 결합성, 투과성, 용해도 등 다수의 치료적 특성을 포함하여 유효하고 다양하며 다중 목표를 최적화한 펩타이드 SMILES를 생성하기 위해 Monte Carlo Tree Search 가이드가 있는 다목적 이산 확산 프레임워크를 도입한다.

ABSTRACT

We present PepTune, a multi-objective discrete diffusion model for simultaneous generation and optimization of therapeutic peptide SMILES. Built on the Masked Discrete Language Model (MDLM) framework, PepTune ensures valid peptide structures with a novel bond-dependent masking schedule and invalid loss function. To guide the diffusion process, we introduce Monte Carlo Tree Guidance (MCTG), an inference-time multi-objective guidance algorithm that balances exploration and exploitation to iteratively refine Pareto-optimal sequences. MCTG integrates classifier-based rewards with search-tree expansion, overcoming gradient estimation challenges and data sparsity. Using PepTune, we generate diverse, chemically-modified peptides simultaneously optimized for multiple therapeutic properties, including target binding affinity, membrane permeability, solubility, hemolysis, and non-fouling for various disease-relevant targets. In total, our results demonstrate that MCTG for masked discrete diffusion is a powerful and modular approach for multi-objective sequence design in discrete state spaces.

연구 동기 및 목표

  • 상충하는 다중 치료 목표를 만족하는 펩타이드를 설계하는 과제를 제시한다.
  • 비자연 아미노산과 고리 구조를 포함할 수 있는 펩타이드 SMILES를 위한 이산 확산 기반 생성 모델을 개발한다.
  • 다중 특성을 최적화하기 위해 Monte Carlo Tree Search를 기반으로 한 다중 목표 가이드 프레임워크를 도입한다.
  • 목표 지침을 지원하기 위한 펩타이드 SMILES의 특성 예측 모델을 제공한다.
  • 표적 단백질에 대해 결합력 및 투과성이 향상된 사례 연구를 시연한다.

제안 방법

  • RoFormer 백본을 사용하고 결합 의존 마스킹으로 펩타이드 결합을 강제하는 마스크된 확산 언어 모델인 PepMDLM을 구축한다.
  • 생성 초기 단계에서 펩타이드 결합의 마스크를 해제하는 것을 우선시하는 결합 의존 마스킹 스케줄을 도입한다.
  • 전역 유효하지 않은 SMILES 손실을 추가하고 페널티를 토큰 확률로 스케일링한다.
  • 다중 목표에 걸쳐 Pareto 최적의 펩타이드를 생성하기 위해 Gumbel 기반의 언마스킹을 사용한 몬테카를로 트리 검색(MCTS)으로 시퀀스를 탐색하고 확장한다.
  • 펩타이드 SMILES에 대해 결합 친화도와 막 투과성을 예측하기 위한 회귀 및 분류 모델을 훈련하고, 용해도, 용혈성, 비오염성에 대한 분류기를 훈련한다.
  • TfR, GLP-1R, GFAP, NCAM1, AMHR2를 포함한 표적에 대한 다중 목표 펩타이드 설계 및 도킹 검증을 입증하는 사례 연구를 수행한다.

실험 결과

연구 질문

  • RQ1이산 확산 모델이 비자연 아미노산과 고리 구조를 포함하는 유효하고 화학적으로 변형된 펩타이드 SMILES를 생성할 수 있는가?
  • RQ2MCTS를 통한 다중 목표 가이던스가 결합 친화도, 투과성, 용해도, 비오염성, 용혈성의 균형을 이루는 Pareto 최적의 펩타이드 시퀀스를 생성할 수 있는가?
  • RQ3펩타이드 SMILES 기반 특성 예측기가 치료 표적 지정을 가이드하기에 충분히 정확한가?
  • RQ4PepTune으로 생성된 펩타이드가 알려진 바인더와 비교하여 임상적으로 관련 표적에 대해 경쟁력 있는 도킹 및 결합을 보이는가?
  • RQ5막 부착 수용체 및 세포 내 단백질을 포함한 다양한 표적에 대해 이 접근법이 일반화 가능합니까?

주요 결과

  • PepMDLM은 필터링 후 길이가 약 15개의 아미노산일 때 45%, 길이가 약 30개일 때 36%의 유효 펩타이드 생성 비율을 달성한다.
  • PepTune은 MCTS-guided 생성에서 20 이내에 100% 유효성을 달성하고 무조건적 모델에 비례하는 다양성과 고유성을 유지한다.
  • PepTune-조건화 펩타이드는 예측된 결합 친화도 분포가 무조건적 샘플보다 높고 표적에 경쟁력 있는 점수로 도킹된다(예: TfR, GLP-1R).
  • TfR의 경우 PepTune은 -6.0 kcal/mol 미만의 도킹 바인더를 산출했고 상위 바인더는 -8.4 kcal/mol로 알려진 바인더 T7과 어깨를 나란히 한다.
  • GLP-1R 조건화 펩타이드는 도킹 점수 -7.4 및 -7.0 kcal/mol를 달성했으며 도킹 맥 context에서 일부 기존 GLP-1R 작용제보다 우수하다.
  • GFAP 세포내 표적은 -7 kcal/mol 미만의 도킹 점수를 보이는 바인더로 다루어져 세포내 작용 가능성을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.