[论文解读] Tree Edit Distance Learning via Adaptive Symbol Embeddings
本文提出嵌入编辑距离学习(BEDL),一种新颖的树编辑距离度量学习方法,通过学习树节点标签的向量嵌入以诱导欧几里得距离度量。通过在原型树上优化广义学习向量量化(GLVQ),BEDL确保了度量性质,提升了可解释性,并在六个多样化基准上实现了最先进的分类准确率,涵盖生物信息学、程序分析和自然语言处理任务。
Metric learning has the aim to improve classification accuracy by learning a distance measure which brings data points from the same class closer together and pushes data points from different classes further apart. Recent research has demonstrated that metric learning approaches can also be applied to trees, such as molecular structures, abstract syntax trees of computer programs, or syntax trees of natural language, by learning the cost function of an edit distance, i.e. the costs of replacing, deleting, or inserting nodes in a tree. However, learning such costs directly may yield an edit distance which violates metric axioms, is challenging to interpret, and may not generalize well. In this contribution, we propose a novel metric learning approach for trees which we call embedding edit distance learning (BEDL) and which learns an edit distance indirectly by embedding the tree nodes as vectors, such that the Euclidean distance between those vectors supports class discrimination. We learn such embeddings by reducing the distance to prototypical trees from the same class and increasing the distance to prototypical trees from different classes. In our experiments, we show that BEDL improves upon the state-of-the-art in metric learning for trees on six benchmark data sets, ranging from computer science over biomedical data to a natural-language processing data set containing over 300,000 nodes.
研究动机与目标
- 解决直接编辑代价学习的局限性,如违反度量公理和泛化能力差。
- 通过用向量嵌入替代标量操作代价,提升学习到的编辑距离的可解释性。
- 开发一种既具有判别性又理论基础坚实的树编辑距离度量学习框架。
- 通过可微分且可解释的距离度量,实现对语法树、分子结构和程序抽象语法树等结构化数据的有效分类。
- 在准确率和鲁棒性方面超越现有最先进的树编辑距离度量学习方法。
提出的方法
- 将树编辑距离重新表述为节点标签的向量嵌入,其中编辑代价由嵌入之间的欧几里得距离导出。
- 采用广义学习向量量化(GLVQ)作为目标函数,使数据点更靠近其类别原型,同时远离其他类别的原型。
- 使用前向后向算法聚合所有共优编辑脚本,相比仅依赖单一最优路径,提升了鲁棒性。
- 通过中位数学习向量量化(MLVQ)选择原型,将所需训练元组数量减少至线性规模。
- 通过随机梯度下降端到端学习嵌入,优化嵌入空间中的类别判别能力。
- 通过在学习到的嵌入上使用欧几里得距离,天然地满足度量性质(非负性、同一性、对称性、三角不等式)。
实验结果
研究问题
- RQ1学习到的树节点标签向量嵌入是否能产生比直接代价学习更具判别性和可解释性的编辑距离?
- RQ2与仅考虑单一最优路径相比,考虑所有共优编辑脚本是否能提升树编辑距离度量学习的鲁棒性和性能?
- RQ3在原型上基于GLVQ的优化是否能相比现有编辑距离度量学习方法带来更好的泛化能力和分类准确率?
- RQ4所学习嵌入的可解释性在多大程度上有助于理解数据的底层结构?
- RQ5在多样化树结构数据集上,该方法与最先进的方法(如Good Edit Similarity Learning, GESL)相比,在准确率和运行时间方面表现如何?
主要发现
- BEDL在六个基准数据集上实现了最先进的分类准确率,包括超过30万个节点的Java程序抽象语法树、分子结构和情感分析树。
- 在Cystic数据集中,BEDL将AUC从76.93% ± 0.97%提升至79.2% ± 13.6%;在Leukemia数据集中,从93.8% ± 3.3%提升至94.6% ± 4.5%,优于先前方法。
- 在Sentiment数据集上,BEDL在验证集上实现27.51%的SVM分类错误率,尽管仅使用500个验证样本,仍具有竞争力。
- 该方法在实际编辑距离上显著优于GESL,而GESL在较大数据集上常表现不如基线树编辑距离。
- 消融研究显示,使用共优编辑脚本和GLVQ原型可提升MiniPalindrome上的性能,而基于嵌入的方法提升了实际编辑距离,但未提升伪编辑距离。
- 所学习嵌入的可视化揭示了有意义的结构:无关符号被嵌入在原点附近,而具有判别性的概念如'block'、'while'、'modifiers'和'parametrized type'则被清晰分离,并被定位以反映其功能角色。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。