Skip to main content
QUICK REVIEW

[論文レビュー] Substructure Discovery Using Minimum Description Length and Background Knowledge

Diane J. Cook, Holder, L. B.|ArXiv.org|Feb 1, 1994
Semantic Web and Ontologies被引用数 89
ひとこと要約

この論文では、構造的データ内の繰り返し発生する圧縮可能な部分構造を特定するために最小記述長(MDL)原理を用いる、Subdueと呼ばれる部分構造発見システムを提示する。繰り返し部分構造を検出し、抽象化された概念に置き換えることで、分子構造や回路図など多様な分野における階層的圧縮と知識発見を可能にする。

ABSTRACT

The ability to identify interesting and repetitive substructures is an essential component to discovering knowledge in structural data. We describe a new version of our SUBDUE substructure discovery system based on the minimum description length principle. The SUBDUE system discovers substructures that compress the original data and represent structural concepts in the data. By replacing previously-discovered substructures in the data, multiple passes of SUBDUE produce a hierarchical description of the structural regularities in the data. SUBDUE uses a computationally-bounded inexact graph match that identifies similar, but not identical, instances of a substructure and finds an approximate measure of closeness of two substructures when under computational constraints. In addition to the minimum description length principle, other background knowledge can be used by SUBDUE to guide the search towards more appropriate substructures. Experiments in a variety of domains demonstrate SUBDUE's ability to find substructures capable of compressing the original data and to discover structural concepts important to the domain. Description of Online Appendix: This is a compressed tar file containing the SUBDUE discovery system, written in C. The program accepts as input databases represented in graph form, and will output discovered substructures with their corresponding value.

研究の動機と目的

  • グラフ構造データにおける構造的に繰り返し発生し、概念的に興味深い部分構造を発見するための手法を開発すること。
  • 部分構造の抽象化を通じて、構造的データのロスあり圧縮を可能にすること。
  • 繰り返し部分構造を高レベルの概念に置き換えることで、階層的知識発見を支援すること。
  • バックグラウンド知識および不正確なグラフマッチングを統合し、発見された部分構造の関連性とスケーラビリティを向上させること。
  • DNA、ゴム化合物、電子回路を含む多様な分野において、このアプローチの有効性を示すこと。

提案手法

  • 元のデータを圧縮する能力に基づいて、候補となる部分構造を評価・順位付けするため、最小記述長(MDL)原理を採用する。
  • ビームサーチアルゴリズムを用いて、単一の頂点から始まり、隣接する辺を追加することで段階的に部分構造を拡張する。
  • 計算制約下で、同一ではないが類似した部分構造のインスタンスを同定するために、不正確なグラフマッチング技術を適用する。
  • 発見された部分構造の正確および不正確なインスタンスを、1つの抽象化された頂点に置き換えることで、グラフサイズを縮小し、階層的処理を可能にする。
  • 分野固有の制約や好みなどのバックグラウンド知識を統合し、より意味的に関連性の高い部分構造への探索を導く。
  • データを複数回走査し、部分構造を置き換えながら再び発見プロセスを適用することで、より高レベルの構造的抽象化を明らかにする。

実験結果

リサーチクエスチョン

  • RQ1MDL原理は、構造的データを圧縮しつつ意味のある概念を表す部分構造を効果的に特定できるか?
  • RQ2計算制限下で、不正確なグラフマッチングをどのように用いて、同一ではないが類似した部分構造インスタンスを検出できるか?
  • RQ3バックグラウンド知識は、より関連性があり解釈可能な結果に向けた部分構造発見をどの程度導けるか?
  • RQ4繰り返し部分構造の置き換えによって、複雑な構造的データの階層的抽象化を達成できるか?
  • RQ5DNA生物学、電子工学、幾何的配置を含む多様な分野において、このシステムの性能はどの程度か?

主な発見

  • Subdueは、繰り返し発生する機能的官能基を置き換えることで、ゴム化合物のグラフを大幅に圧縮する部分構造を効果的に発見した。
  • 複数回の走査を通じて、繰り返し発生する塩基対部分構造を検出し組み合わせることで、DNAデータから二重らせん構造を同定した。
  • 回路データにおいては、繰り返し発生するトランジスタおよびゲートパターンを同定し、電子設計解析における有用性を示した。
  • バックグラウンド知識の統合により、発見された部分構造の関連性が向上し、ノイズが減少し、分野固有のパターンに焦点が合った。
  • 繰り返し置き換えによって生じる階層的発見により、DNAにおける繰り返し部分構造からなる鎖のような多段階の抽象化が明らかになった。
  • 不正確なグラフマッチングアルゴリズムにより、同一ではないが構造的に類似したインスタンスの検出が可能になり、ノイズおよびばらつきに対する耐性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。