[论文解读] Entropy-Guided Dynamic Tokens for Graph-LLM Alignment in Molecular Understanding
EDT-Former 通过熵引导的动态标记将分子图与冻结的大语言模型对齐,在不进行主干 LLM 微调的情况下实现高效、子结构感知的图–LLM 融合,并在分子理解基准上达到最先进的结果。
Molecular understanding is central to advancing areas such as scientific discovery, yet Large Language Models (LLMs) struggle to understand molecular graphs effectively. Existing graph-LLM bridges often adapt the Q-Former-style connector with fixed-length static tokens, which is originally designed for vision tasks. These designs overlook stereochemistry and substructural context and typically require costly LLM-backbone fine-tuning, limiting efficiency and generalization. We introduce EDT-Former, an Entropy-guided Dynamic Token Transformer that generates tokens aligned with informative molecular patches, thereby preserving both local and global structural features for molecular graph understanding. Beyond prior approaches, EDT-Former enables alignment between frozen graph encoders and LLMs without tuning the LLM backbone (excluding the embedding layer), resulting in computationally efficient finetuning, and achieves stateof-the-art results on MoleculeQA, Molecule-oriented Mol-Instructions, and property prediction benchmarks (TDC, MoleculeNet), underscoring its effectiveness for scalable and generalizable multimodal molecular understanding
研究动机与目标
- 在不对 LLM 主干进行调优的前提下改善分子图–LLM 的对齐。
- 在多模态融合过程中保留立体化学信息与子结构上下文。
- 在分子基准测试上降低训练成本的同时保持或提升预测精度。
- 展示在性质预测和 MoleculeQA 风格任务上的可扩展性与泛化能力。
提出的方法
- 引入 Entropy-Guided Patching,在熵峰处对 SMILES 有序的原子序列进行分段,形成动态子结构标记。
- 使用 Next-Atom Predictor 计算局部原子层面的熵以进行补丁化。
- 开发 Dynamic Query Transformer,将固定模态锚点与动态标记融合,生成输入到冻结 LLM 的跨模态接口。
- 仅训练桥接部分(锚点、变换器层、投影),同时保持图编码器和 LLM 冻结。
- 将 enrich 的查询投影到 LLM 嵌入空间,以在不更新主干的情况下对冻结 LLM 进行条件化。
- 采用两阶段训练协议:先在编码器冻结的情况下对 Dynamic Query Transformer 进行预训练,然后在附着 LLM 的情况下进行对齐调优。
实验结果
研究问题
- RQ1熵引导的动态标记是否比固定长度的模态锚点更好地保留化学子结构?
- RQ2在冻结 LLM 主干的同时使用动态查询桥是否能维持或提升分子理解与性质预测,同时降低训练成本?
- RQ3熵引导补丁如何影响子图保真度与在 MoleculeQA 与 MoleculeNet/MoL 基准上的推理能力?
主要发现
- EDT-Former 在多个人分子理解基准(如 MoleculeQA、MoleculeNet、TDC)上的对齐机制中,在冻结主干的设定下达到最先进结果。
- 熵引导的补丁化产生数据驱动、信息密集的子结构标记,保留了立体化学与局部图特征。
- Dynamic Query Transformer 能有效整合锚点与动态标记,在不更新 LLM 的情况下实现稳健的跨模态对齐。
- 冻结主干的对齐方法在显著降低可训练参数与内存等计算成本的同时,保持或提升了准确性。
- 消融研究表明如果去除模态融合、动态标记或熵基补丁,性能会显著下降,证实它们对高性能的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。