QUICK REVIEW

[논문 리뷰] PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Shaoqing Tang, Yinuo Zhang|arXiv (Cornell University)|2024. 12. 23.

Protein purification and stability인용 수 6

한 줄 요약

PepTune은 결합성, 투과성, 용해도 등 다수의 치료적 특성을 포함하여 유효하고 다양하며 다중 목표를 최적화한 펩타이드 SMILES를 생성하기 위해 Monte Carlo Tree Search 가이드가 있는 다목적 이산 확산 프레임워크를 도입한다.

ABSTRACT

We present PepTune, a multi-objective discrete diffusion model for simultaneous generation and optimization of therapeutic peptide SMILES. Built on the Masked Discrete Language Model (MDLM) framework, PepTune ensures valid peptide structures with a novel bond-dependent masking schedule and invalid loss function. To guide the diffusion process, we introduce Monte Carlo Tree Guidance (MCTG), an inference-time multi-objective guidance algorithm that balances exploration and exploitation to iteratively refine Pareto-optimal sequences. MCTG integrates classifier-based rewards with search-tree expansion, overcoming gradient estimation challenges and data sparsity. Using PepTune, we generate diverse, chemically-modified peptides simultaneously optimized for multiple therapeutic properties, including target binding affinity, membrane permeability, solubility, hemolysis, and non-fouling for various disease-relevant targets. In total, our results demonstrate that MCTG for masked discrete diffusion is a powerful and modular approach for multi-objective sequence design in discrete state spaces.

연구 동기 및 목표

상충하는 다중 치료 목표를 만족하는 펩타이드를 설계하는 과제를 제시한다.
비자연 아미노산과 고리 구조를 포함할 수 있는 펩타이드 SMILES를 위한 이산 확산 기반 생성 모델을 개발한다.
다중 특성을 최적화하기 위해 Monte Carlo Tree Search를 기반으로 한 다중 목표 가이드 프레임워크를 도입한다.
목표 지침을 지원하기 위한 펩타이드 SMILES의 특성 예측 모델을 제공한다.
표적 단백질에 대해 결합력 및 투과성이 향상된 사례 연구를 시연한다.

제안 방법

RoFormer 백본을 사용하고 결합 의존 마스킹으로 펩타이드 결합을 강제하는 마스크된 확산 언어 모델인 PepMDLM을 구축한다.
생성 초기 단계에서 펩타이드 결합의 마스크를 해제하는 것을 우선시하는 결합 의존 마스킹 스케줄을 도입한다.
전역 유효하지 않은 SMILES 손실을 추가하고 페널티를 토큰 확률로 스케일링한다.
다중 목표에 걸쳐 Pareto 최적의 펩타이드를 생성하기 위해 Gumbel 기반의 언마스킹을 사용한 몬테카를로 트리 검색(MCTS)으로 시퀀스를 탐색하고 확장한다.
펩타이드 SMILES에 대해 결합 친화도와 막 투과성을 예측하기 위한 회귀 및 분류 모델을 훈련하고, 용해도, 용혈성, 비오염성에 대한 분류기를 훈련한다.
TfR, GLP-1R, GFAP, NCAM1, AMHR2를 포함한 표적에 대한 다중 목표 펩타이드 설계 및 도킹 검증을 입증하는 사례 연구를 수행한다.

실험 결과

연구 질문

RQ1이산 확산 모델이 비자연 아미노산과 고리 구조를 포함하는 유효하고 화학적으로 변형된 펩타이드 SMILES를 생성할 수 있는가?
RQ2MCTS를 통한 다중 목표 가이던스가 결합 친화도, 투과성, 용해도, 비오염성, 용혈성의 균형을 이루는 Pareto 최적의 펩타이드 시퀀스를 생성할 수 있는가?
RQ3펩타이드 SMILES 기반 특성 예측기가 치료 표적 지정을 가이드하기에 충분히 정확한가?
RQ4PepTune으로 생성된 펩타이드가 알려진 바인더와 비교하여 임상적으로 관련 표적에 대해 경쟁력 있는 도킹 및 결합을 보이는가?
RQ5막 부착 수용체 및 세포 내 단백질을 포함한 다양한 표적에 대해 이 접근법이 일반화 가능합니까?

주요 결과

PepMDLM은 필터링 후 길이가 약 15개의 아미노산일 때 45%, 길이가 약 30개일 때 36%의 유효 펩타이드 생성 비율을 달성한다.
PepTune은 MCTS-guided 생성에서 20 이내에 100% 유효성을 달성하고 무조건적 모델에 비례하는 다양성과 고유성을 유지한다.
PepTune-조건화 펩타이드는 예측된 결합 친화도 분포가 무조건적 샘플보다 높고 표적에 경쟁력 있는 점수로 도킹된다(예: TfR, GLP-1R).
TfR의 경우 PepTune은 -6.0 kcal/mol 미만의 도킹 바인더를 산출했고 상위 바인더는 -8.4 kcal/mol로 알려진 바인더 T7과 어깨를 나란히 한다.
GLP-1R 조건화 펩타이드는 도킹 점수 -7.4 및 -7.0 kcal/mol를 달성했으며 도킹 맥 context에서 일부 기존 GLP-1R 작용제보다 우수하다.
GFAP 세포내 표적은 -7 kcal/mol 미만의 도킹 점수를 보이는 바인더로 다루어져 세포내 작용 가능성을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.