[论文解读] Structure-Preserving Graph Contrastive Learning for Mathematical Information Retrieval
论文提出 Variable Substitution,一种用于数学信息检索中图对比学习的领域特定图增强,保持公式结构并提升相对于通用增广的检索性能。
This paper introduces Variable Substitution as a domain-specific graph augmentation technique for graph contrastive learning (GCL) in the context of searching for mathematical formulas. Standard GCL augmentation techniques often distort the semantic meaning of mathematical formulas, particularly for small and highly structured graphs. Variable Substitution, on the other hand, preserves the core algebraic relationships and formula structure. To demonstrate the effectiveness of our technique, we apply it to a classic GCL-based retrieval model. Experiments show that this straightforward approach significantly improves retrieval performance compared to generic augmentation strategies. We release the code on GitHub.\footnote{https://github.com/lazywulf/formula_ret_aug}.
研究动机与目标
- 解决小型、高度结构化公式图在 MIR 中对标准图增广的易脆性问题。
- 提出领域特定的增广方法 Variable Substitution,在保持公式结构的同时提供表征方差。
- 在 SLT 和 OPT 图表示上展示相对于基线和通用增广的改进。
提出的方法
- 将公式转换为两种图结构:符号布局树(SLT)和运算符树(OPT)。
- 使用 fastText 对图节点进行嵌入,结合随机游走生成 100 维节点嵌入。
- 应用 Variable Substitution 通过替换变量节点和数值节点以保持拓扑结构来创建增强视图。
- 使用图对比学习进行训练,以对齐原始视图和增强视图并分离不同公式。
- 将学习到的公式嵌入存储在数据库中以提高检索效率。
- 通过对查询公式进行嵌入并利用余弦相似度对数据库公式进行排序来进行在线查询评估。

实验结果
研究问题
- RQ1Variable Substitution 是否比标准增广在 MIR 中更能保持公式完整性?
- RQ2Variable Substitution 在 MIR 检索任务中对 SLT 与 OPT 表示的表现如何?
- RQ3该方法是否在对 TangentCFT 及其他增广策略的检索性能方面有所提升?
主要发现
- Variable Substitution 相较于其他增广在 bpref 得分上表现更优,尤其对 SLT 在完全相关情况下最高 bpref 为 0.59,在部分相关时为 0.70。
- 在 OPT 上,Variable Substitution 始终优于替代方案,在完全相关下达到 0.58 的 bpref,并在部分相关时以 0.70 领先。
- 更大的批量大小带来边际提升,且多次重复结果稳定(标准差较低)。
- 该方法在两种图表示下均优于基础 TangentCFT 结合多种增广策略的表现。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。