[论文解读] Unifying Molecular and Textual Representations via Multi-task Language Modelling
本文提出 Text+Chem T5,一个跨域、多任务的 Transformer,将自然语言与化学语言连接起来,使在不进行任务特定微调或双领域预训练的情况下也能执行跨域任务,并通过编码器共享和模型规模扩展实现性能提升。
The recent advances in neural language models have also been successfully applied to the field of chemistry, offering generative solutions for classical problems in molecular design and synthesis planning. These new methods have the potential to fuel a new era of data-driven automation in scientific discovery. However, specialized models are still typically required for each task, leading to the need for problem-specific fine-tuning and neglecting task interrelations. The main obstacle in this field is the lack of a unified representation between natural language and chemical representations, complicating and limiting human-machine interaction. Here, we propose the first multi-domain, multi-task language model that can solve a wide range of tasks in both the chemical and natural language domains. Our model can handle chemical and natural language concurrently, without requiring expensive pre-training on single domains or task-specific models. Interestingly, sharing weights across domains remarkably improves our model when benchmarked against state-of-the-art baselines on single-domain and cross-domain tasks. In particular, sharing information across domains and tasks gives rise to large improvements in cross-domain tasks, the magnitude of which increase with scale, as measured by more than a dozen of relevant metrics. Our work suggests that such models can robustly and efficiently accelerate discovery in physical sciences by superseding problem-specific fine-tuning and enhancing human-model interactions.
研究动机与目标
- 用一个多任务模型桥接自然语言和化学表示。
- 消除对昂贵的单域预训练和任务特定微调的需求。
- 在化学与 NLP 基准上展示跨域与跨任务的能力。
- 分析编码器共享与聚合策略以最大化跨域迁移。
- 展示更大模型尺寸在跨域任务上的可扩展性收益。
提出的方法
- 以 T5 基于的编码器–解码器架构作为骨干。
- 在单一模型上联合训练单域(文本或化学)和跨域任务,使用任务提示。
- 在域之间共享编码器,并通过域特定编码器之间的跨注意力探索合并策略。
- 评估多种编码器策略(共享 vs 域特定,冻结 vs 微调)在 mol2mol、text2mol、mol2text、text2text 任务上的表现。
- 与基线比较,包括 Transformer、T5 微调模型、RXN 家族模型和 MolT5。
- 利用增强数据变体平衡任务分布并评估数据规模的影响。
实验结果
研究问题
- RQ1单一的多任务多域模型是否能够在化学与 NLP 任务上都实现有竞争力的性能,并在跨域任务上超越单域基线?
- RQ2编码器共享和跨域信息共享是否提升跨域翻译性能?
- RQ3模型是否能够在没有任务特定输出头或大量单域预训练的情况下完成跨域任务?
- RQ4模型规模(小型 vs 基础型)如何影响跨域性能与可扩展性?
- RQ5聚合策略对跨域任务性能的影响是什么?
主要发现
| 模型 | 聚合 | 编码器共享 | 编码器微调 | text2mol | mol2text |
|---|---|---|---|---|---|
| MD e^2-CLM | 平均值 | ✗ | ✗ | 0.572 | 0.123 |
| MD e^2-CLM | cross-att | ✗ | ✗ | 0.702 | 0.274 |
| MDMT e^2-CLM | cross-att | ✗ | ✗ | 0.247 | 0.119 |
| MDMT e^2-CLM | cross-att | ✗ | ✓ | 0.211 | 0.075 |
| Text+Chem T5 | - | ✓ | ✓ | 0.750 | 0.580 |
| Text+Chem T5-augm | - | ✓ | ✓ | 0.853 | 0.625 |
- Text+Chem T5 在跨域任务上在多项指标(例如 BLEU、ROUGE、METEOR)上超越基线。
- 跨域任务在编码器共享与微调下显示显著提升,超越在 text2mol 与 mol2text 的 MD e^2-CLM 变体。
- Text+Chem T5 在 mol2text(从 SMILES 得到的字幕)和 text2mol(从文本得到的 SMILES)上在小型和基础型规模均取得最佳分数。
- 模型尺寸的增加相对于基线对 Text+Chem T5 带来更快且更大幅度的提升,表明在跨域共享信息时的可扩展性提升。
- 消融研究表明编码器共享与微调是跨域性能最具影响的因素,而聚合方法则不那么关键。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。