[논문 리뷰] Retrieval-Augmented Foundation Models for Matched Molecular Pair Transformations to Recapitulate Medicinal Chemistry Intuition
이 논문은 변수-대-변수 매치드 분자 쌍 변환용 기반 모델 MMPT-FM과 MMPT 기반 아날로그 설계에서 컨트롤 가능성, 참신성, 재현성을 개선하는 Retrieval-augmented 접근법 MMPT-RAG를 도입합니다.
Matched molecular pairs (MMPs) capture the local chemical edits that medicinal chemists routinely use to design analogs, but existing ML approaches either operate at the whole-molecule level with limited edit controllability or learn MMP-style edits from restricted settings and small models. We propose a variable-to-variable formulation of analog generation and train a foundation model on large-scale MMP transformations (MMPTs) to generate diverse variables conditioned on an input variable. To enable practical control, we develop prompting mechanisms that let the users specify preferred transformation patterns during generation. We further introduce MMPT-RAG, a retrieval-augmented framework that uses external reference analogs as contextual guidance to steer generation and generalize from project-specific series. Experiments on general chemical corpora and patent-specific datasets demonstrate improved diversity, novelty, and controllability, and show that our method recovers realistic analog structures in practical discovery scenarios.
연구 동기 및 목표
- MMPT를 사용하여 컨텍스트에 의존하지 않는 로컬 편집으로 아날로그 설계를 형식화한다( vA -> vB ).
- 약물 유사 화학 데이터로부터 변환 선험을 학습하기 위해 대규모 MMPT 기반 모델을 학습한다.
- 구조적 템플릿 프롬프트를 통해 사용자 제어 생성을 가능하게 한다.
- 참조 MMPT 데이터에서 검색된 유사체와 클러스터 가이드 템플릿으로 생성을 조정하기 위해 MMPT-RAG를 도입한다.
- 다양한 설정에서 재현율, 참신성 및 타당성을 개선한 결과를 보여준다(분포 내 및 특허 기반 아날로그 생성任务).
제안 방법
- MMPT를 SMARTS 기반의 variable-to-variable 시퀀스로 표현하고, MMPDB를 통해 ChEMBL에서 추출한 약 0.8M MMPT에 대해 시퀀스-투-시퀀스 인코더-디코더를 학습한다.
- 화학 의미를 보존하기 위해 화학에 초점을 맞춘 사전 학습 모델(T5Chem)에서 초기화한다.
- 부분적인 구조 제약 T를 제공하여 마스킹된 채움으로 프롬프트 생성되어 vB를 얻는 방식을 구현한다.
- MMPT-RAG를 개발: 참조 MMPT 데이터셋에서 유사한 vA를 검색하고, 해당 vB를 클러스터링하며, MCS 기반 템플릿 Tk를 추출하고 다중 클러스터 템플릿에 조건화하여 생성한다.
- 적응적 α 매개변수에 의해 지배되는 기본 모델과 참조 분포 사이의 볼록 분포 이동을 MMPT-RAG가 수행한다는 이론적 분석을 제시한다.
- 다양한 설정에서 재현율, 참신성 및 타당성을 평가하기 위해 분포 내(in-distribution), 특허 내(within-patent), 특허 간(cross-patent) 세 가지 평가 작업을 제공한다.

실험 결과
연구 질문
- RQ1의약 화학에서 MMPT가 맥락에 의존하지 않는 전이 가능한 로컬 편집을 포착할 수 있는가?
- RQ2대규모 데이터에서 MMPT 선험을 학습하고 유효하고, 참신하며, 이전 가능성이 있는 치환을 생성할 수 있는가?
- RQ3 retraining 없이 프롬프팅으로 제어 가능한 구조 지향 MMPT 생성을 가능하게 하는가?
- RQ4검색 보강이 MMPT 생성을 프로젝트 특정 패턴과 드물지만 의미 있는 변형으로 이끄는가?
- RQ5MMPT-RAG가 분포 내, 특허 내, 특허 간 아날로그 생성 작업에서 베이스라인 대비 성능이 어떠한가?
주요 결과
- MMPT-FM은 모든 작업에서 기준선 대비 실제 변환에 대한 재현율을 크게 향상시킨다.
- MMPT-RAG은 재현율을 더 향상시키고 Task 1(ChEMBL)에서 가장 높은 참신성을 달성한다.
- 특허 기반 작업에서 MMPT-FM과 MMPT-RAG은 학습 세트 내 재현율이 강하고 학습 세트 외 재현율도 의미 있게 나타나 unseen 변환에 대한 일반화를 시사한다.
- 검색 보강은 생성이 덜 대표적이지만 화학적으로 의미 있는 변형으로 이어져 화학 공간의 커버리지를 개선한다.
- 구조적 템플릿을 사용한 프롬프팅 생성은 더 높은 후보 수에서 GT 회수를 거의 완벽하게 달성하고 높은 타당성을 유지한다.
- 시각화 결과 MMPT-RAG가 PMV17에서 기본 모델의 화학 공간 커버리지를 확장하고 생성물을 참조 분포와 정렬한다를 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.