QUICK REVIEW

[論文レビュー] Translation between Molecules and Natural Language

Carl K. Edwards, Tuan Lai|arXiv (Cornell University)|Apr 25, 2022

Machine Learning in Materials Science被引用数 24

ひとこと要約

tldr: MolT5 は、大規模なラベルなしテキストと SMILES データで事前学習を行い、2つの新しいクロスモーダルタスクを可能にします：分子キャプション生成とテキストベースの新規分子生成。自己教師ありフレームワークと新しい Text2Mol 評価指標を使用。

ABSTRACT

We present $ extbf{MolT5}$ $-$ a self-supervised learning framework for pretraining models on a vast amount of unlabeled natural language text and molecule strings. $ extbf{MolT5}$ allows for new, useful, and challenging analogs of traditional vision-language tasks, such as molecule captioning and text-based de novo molecule generation (altogether: translation between molecules and language), which we explore for the first time. Since $ extbf{MolT5}$ pretrains models on single-modal data, it helps overcome the chemistry domain shortcoming of data scarcity. Furthermore, we consider several metrics, including a new cross-modal embedding-based metric, to evaluate the tasks of molecule captioning and text-based molecule generation. Our results show that $ extbf{MolT5}$-based models are able to generate outputs, both molecules and captions, which in many cases are high quality.

研究の動機と目的

自然言語インターフェースを通じた分子設計の高度な制御を促進する。
テキストと SMILES 文字列の自己教師付き事前学習によって、分子キャプション生成/生成のデータ不足を克服する。
クロスモーダルタスクに微調整できる、テキスト-分子の共同事前学習フレームワークとして MolT5 を提案する。

提案手法

T5 チェックポイントから初期化されたエンコーダ-デコーダ Transformer を使用する。
自然言語と SMILES のシーケンスのスパンをマスクする二言語デノイズ目的で事前学習する。
分子キャプション生成（SMILES → キャプション）またはテキストベースの新規分子生成（キャプション → SMILES）でファインチューニングする。
交差モーダル出力を評価するために Text2Mol に基づくクロスモーダル検索を導入する。
従来の NLP 指標と、妥当性や化学フィンガープリントの類似性など、化学特有の指標を含む指標群で評価する。

実験結果

リサーチクエスチョン

RQ1単一の事前学習モデルを用いて、分子と言語を双方向に翻訳できるか？
RQ2テキストと SMILES の双方での自己教師付き事前学習は、分子キャプション生成とテキスト指示による分子生成の性能を向上させるか？
RQ3分子と言語のクロスモーダル品質を最もよく捉える評価指標は何か？
RQ4新しいタスクにおいて、MolT5 はベースラインの seq2seq および事前学習済み言語モデルとどのように比較されるか？

主な発見

MolT5 ベースのモデルは、分子キャプション生成と生成タスクで RNN および Transformer ベースラインを上回る。
MolT5-Large は、キャプショニングスコアで最高を記録する（BLEU-2 0.594、BLEU-4 0.508、ROUGE-1 0.654、ROUGE-2 0.510、ROUGE-L 0.594、METEOR 0.614、Text2Mol 0.582）。
生成タスクでは、MolT5-Large は BLEU-2 0.854、Exact 0.311、Levenshtein 16.071、MACCS FTS 0.834、RDK FTS 0.746、Morgan FTS 0.684、FCD 1.20、Text2Mol 0.554、Validity 0.905 に達する。
MolT5-特異的利得には、Text2Mol ベースの類似性が高く、生成分子の妥当性がベースラインよりはるかに高いことが含まれる。
MolT5 は、テキスト記述から正確またはほぼ正確な分子を生成する能力を示し、水和物やペプチドのような複雑なケースを含む例全体で定性的な証拠を提供する。
Text2Mol 指標は、生成された説明/分子のクロスモーダル類似性を評価するために用いられ、単一参照キャプションの評価ギャップに対応する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。