Skip to main content
QUICK REVIEW

[论文解读] Substructure Discovery Using Minimum Description Length and Background Knowledge

Diane J. Cook, Holder, L. B.|ArXiv.org|Feb 1, 1994
Semantic Web and Ontologies被引用 89
一句话总结

本文提出 Subdue,一种基于最小描述长度(MDL)原则的子结构发现系统,用于识别结构数据中的重复性、可压缩子结构。通过迭代检测并用抽象概念替换子结构,Subdue 实现了在分子结构和电路图等多样化领域中的分层压缩与知识发现。

ABSTRACT

The ability to identify interesting and repetitive substructures is an essential component to discovering knowledge in structural data. We describe a new version of our SUBDUE substructure discovery system based on the minimum description length principle. The SUBDUE system discovers substructures that compress the original data and represent structural concepts in the data. By replacing previously-discovered substructures in the data, multiple passes of SUBDUE produce a hierarchical description of the structural regularities in the data. SUBDUE uses a computationally-bounded inexact graph match that identifies similar, but not identical, instances of a substructure and finds an approximate measure of closeness of two substructures when under computational constraints. In addition to the minimum description length principle, other background knowledge can be used by SUBDUE to guide the search towards more appropriate substructures. Experiments in a variety of domains demonstrate SUBDUE's ability to find substructures capable of compressing the original data and to discover structural concepts important to the domain. Description of Online Appendix: This is a compressed tar file containing the SUBDUE discovery system, written in C. The program accepts as input databases represented in graph form, and will output discovered substructures with their corresponding value.

研究动机与目标

  • 开发一种方法,用于发现图结构数据中的结构重复且概念有趣的子结构。
  • 通过子结构抽象实现结构数据的有损压缩。
  • 通过迭代地将子结构替换为更高级别的概念,支持分层知识发现。
  • 整合背景知识与非精确图匹配,以提升所发现子结构的相关性与可扩展性。
  • 在包括 DNA、橡胶化合物和电子电路在内的多样化领域中,证明该方法的有效性。

提出的方法

  • 采用最小描述长度(MDL)原则,根据候选子结构压缩原始数据的能力,对其评估与排序。
  • 使用束搜索算法逐步探索子结构,从单个顶点出发,通过添加相邻边逐步扩展。
  • 应用非精确图匹配技术,在计算约束下识别相似但不完全相同的子结构实例。
  • 将发现的子结构的精确与非精确实例统一替换为单个抽象顶点,减少图的规模,支持分层处理。
  • 整合背景知识(例如领域特定约束或偏好),引导搜索朝向更具语义相关性的子结构。
  • 对数据执行多次遍历,替换子结构并重新应用发现过程,以揭示更高级别的结构抽象。

实验结果

研究问题

  • RQ1MDL 原理能否有效识别出既能压缩结构数据又具有有意义概念的子结构?
  • RQ2在计算资源受限条件下,如何利用非精确图匹配检测结构相似但不完全相同的子结构实例?
  • RQ3背景知识在多大程度上可引导子结构发现,使其结果更具相关性与可解释性?
  • RQ4迭代子结构替换能否生成复杂结构数据的分层抽象?
  • RQ5该系统在分子生物学、电子工程和几何排列等多样化领域中的表现如何?

主要发现

  • Subdue 有效发现了可实现显著数据压缩的子结构,例如通过替换重复的功能基团,将橡胶化合物图的规模大幅缩减。
  • 通过在多轮遍历中检测并组合重复的碱基对子结构,系统成功识别出 DNA 数据中的双螺旋结构。
  • 在电路数据中,Subdue 揭示了重复出现的晶体管与门电路模式,展示了其在电子设计分析中的实用性。
  • 背景知识的整合提升了所发现子结构的相关性,减少了噪声,并聚焦于领域特定的模式。
  • 通过迭代替换实现的分层发现,揭示了多级抽象结构,例如由重复子结构构成的 DNA 链。
  • 非精确图匹配算法能够检测结构相似但不完全相同的实例,增强了对噪声与变异的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。