QUICK REVIEW

[논문 리뷰] Translation between Molecules and Natural Language

Carl K. Edwards, Tuan Lai|arXiv (Cornell University)|2022. 04. 25.

Machine Learning in Materials Science인용 수 24

한 줄 요약

MolT5는 대량의 비라벨 텍스트와 SMILES 데이터를 사전 학습하여 두 가지 새로운 교차 모달 작업을 가능하게 한다: 분자 캡션 생성과 텍스트 기반의 새로운 분자 생성. 자체지도 프레임워크와 새로운 Text2Mol 평가 지표를 사용한다.

ABSTRACT

We present $ extbf{MolT5}$ $-$ a self-supervised learning framework for pretraining models on a vast amount of unlabeled natural language text and molecule strings. $ extbf{MolT5}$ allows for new, useful, and challenging analogs of traditional vision-language tasks, such as molecule captioning and text-based de novo molecule generation (altogether: translation between molecules and language), which we explore for the first time. Since $ extbf{MolT5}$ pretrains models on single-modal data, it helps overcome the chemistry domain shortcoming of data scarcity. Furthermore, we consider several metrics, including a new cross-modal embedding-based metric, to evaluate the tasks of molecule captioning and text-based molecule generation. Our results show that $ extbf{MolT5}$-based models are able to generate outputs, both molecules and captions, which in many cases are high quality.

연구 동기 및 목표

자연어 인터페이스를 통한 분자 설계에 대한 고수준 제어를 촉진한다.
텍스트 및 SMILES 문자열에 대한 자체지도 사전 학습으로 분자-캡션 생성/생성의 데이터 부족 문제를 완화한다.
MolT5를 교차 모달 작업에 파인튜닝할 수 있는 텍스트-분자 공동 사전 학습 프레임워크로 제안한다.

제안 방법

T5 체크포인트에서 초기화된 인코더-디코더 트랜스포머를 사용한다.
자연어와 SMILES 시퀀스의 span을 마스킹하는 이중 언어 잡음 제거 목적어로 사전 학습한다.
분자 캡션 생성( SMILES -> 캡션 ) 또는 텍스트 기반의 새로운 분자 생성( 캡션 -> SMILES )에 파인튜닝한다.
교차 모달 출력을 평가하기 위해 Text2Mol 기반 교차 모달 검색을 도입한다.
전통 NLP 지표와 화학적 지표를 포함한 평가를 통해 타당성 및 화학 지문 유사도 등을 평가한다.

실험 결과

연구 질문

RQ1단일 사전 학습 모델을 사용하여 분자와 자연어를 양방향으로 번역할 수 있는가?
RQ2텍스트와 SMILES 모두에 대한 자체지도 사전 학습이 분자 캡션 생성 및 텍스트 유도 분자 생성을 향상시키는가?
RQ3분자와 언어의 교차 모달 품질을 가장 잘 포착하는 평가 지표는 무엇인가?
RQ4MolT5가 새로운 작업에서 기본 seq2seq 및 사전 학습된 언어 모델과 비교하여 어떤 차이가 있는가?

주요 결과

MolT5 기반 모델이 분자 캡션 생성 및 생성 작업에서 RNN 및 Transformer 기본 모델보다 우수하다.
MolT5-대형은 최고 캡션 점수를 달성한다(BLEU-2 0.594, BLEU-4 0.508, ROUGE-1 0.654, ROUGE-2 0.510, ROUGE-L 0.594, METEOR 0.614, Text2Mol 0.582).
생성의 경우 MolT5-대형은 BLEU-2 0.854, Exact 0.311, Levenshtein 16.071, MACCS FTS 0.834, RDK FTS 0.746, Morgan FTS 0.684, FCD 1.20, Text2Mol 0.554, Validity 0.905에 도달한다.
MolT5-특정 이득은 Text2Mol 기반 유사도와 생성된 분자의 타당도에서 비교대비 크게 향상된다는 점이다.
MolT5는 텍스트 설명에서 정확하거나 거의 정확한 분자를 생성하는 능력을 보여주며, 수화물 및 펩타이드와 같은 복잡한 사례를 포함한 예시에서 질적 증거를 제시한다.
Text2Mol 지표는 생성된 설명/분자 간의 교차 모달 유사성을 평가하는 데 사용되며, 단일 참조 캡션에 대한 평가 격차를 해결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.