Skip to main content
QUICK REVIEW

[논문 리뷰] Using Taxonomies to Facilitate the Analysis of the Association Rules

Marcos Aurélio Domingues, Solange Oliveira Rezende|arXiv (Cornell University)|2005. 01. 01.
Data Mining Algorithms and Applications참고 문헌 9인용 수 36
한 줄 요약

이 논문은 사용자 정의한 분류 체계를 사용하여 연관 규칙를 일반화함으로써 연관 규칙의 수를 줄이기 위해 GART 알고리즘과 RulEE-GAR 계산 모듈을 제안한다. 특정 품목을 계층적 범주(예: '티셔츠'와 '반바지'를 '가벼운 옷'으로 통합)로 묶고 추상화함으로써 중복 규칙를 제거하여, 데이터 마이닝 응용 분야에서 분석 및 의사결정을 더 쉽게 하기 위해 규칙 집합을 최대 50.11%까지 감소시킨다.

ABSTRACT

The Data Mining process enables the end users to analyze, understand and use the extracted knowledge in an intelligent system or to support in the decision-making processes. However, many algorithms used in the process encounter large quantities of patterns, complicating the analysis of the patterns. This fact occurs with association rules, a Data Mining technique that tries to identify intrinsic patterns in large data sets. A method that can help the analysis of the association rules is the use of taxonomies in the step of post-processing knowledge. In this paper, the GART algorithm is proposed, which uses taxonomies to generalize association rules, and the RulEE-GAR computational module, that enables the analysis of the generalized rules.

연구 동기 및 목표

  • 데이터 마이닝 알고리즘에 의해 생성되는 대량의 중복되거나 의미 없는 연관 규칙를 관리하는 데 도전하는 것.
  • 규칙 집합의 복잡성을 줄임으로써 실생활 의사결정에서 연관 규칙의 해석 가능성과 활용 가능성을 향상시키는 것.
  • 도메인 전문가가 수동으로 분류 체계를 정의하여 의미 없는 또는 겹치는 패턴을 제거할 수 있도록 하는 것.
  • 계층적 분류를 사용하여 왼쪽 항(Left-Hand Side, LHS) 또는 오른쪽 항(Right-Hand Side, RHS)에서 규칙를 체계적으로 일반화하는 후처리 프레임워크를 제공하는 것.
  • 원본 규칙 복원 및 측정치 분석 기능을 지원하는 RulEE-GAR라는 계산 도구를 개발하여 상호작용 가능한 탐색, 시각화 및 평가를 가능하게 하는 것.

제안 방법

  • 사용자 정의한 분류 체계를 사용하여 연관 규칙를 일반화하는 GART 알고리즘을 제안하며, 규칙의 LHS 또는 RHS에 집중한다.
  • LHS 일반화를 위해 동일한 전제를 가진 규칙들, RHS 일반화를 위해 동일한 결과를 가진 규칙들을 묶어 일반화를 위한 서브셋을 형성한다.
  • 분류 체계의 계층적 구조를 적용하여 규칙 내 특정 품목을 더 일반적인 부모 범주로 대체한다(예: '티셔츠' → '가벼운 옷').
  • 두 단계로 이루어진 일반화 과정을 적용: 먼저 한 쪽에서 품목을 일반화한 후, 그 결과로 나온 일반화된 품목들을 추가로 일반화한다.
  • 중복된 일반화된 규칙를 제거하여 최소화되고 중복이 없는 일반화된 규칙 집합을 유지한다.
  • 각 일반화된 규칙에 대해 교차표 계산을 통합하여 규칙의 커버리지와 타당성에 대한 추가 통계적 통찰을 제공한다.

실험 결과

연구 질문

  • RQ1사용자 정의한 분류 체계를 사용하여 의미 있는 패턴을 유지하면서 연관 규칙의 수를 효과적으로 줄일 수 있는가?
  • RQ2계층적 분류 체계를 사용한 규칙 일반화가 결과 규칙 집합의 해석 가능성과 활용 가능성에 어떤 영향을 미치는가?
  • RQ3GART 알고리즘이 다양한 데이터 파artition 및 분류 체계 설계에서 규칙 집합의 볼륨을 얼마나 줄일 수 있는가?
  • RQ4분류 체계의 세분성과 도메인 전문 지식이 연관 규칙 감소율에 어떤 영향을 미치는가?
  • RQ5RulEE-GAR와 같은 후처리 모듈이 원본 규칙 복원 및 측정치 분석과 같은 기능을 통해 사용자 상호작용과 일반화된 규칙 이해를 향상시킬 수 있는가?

주요 결과

  • GART 알고리즘은 18종의 다양한 분류 체계를 사용한 다수의 실험에서 연관 규칙 집합을 14.61%에서 50.11%까지 성공적으로 감소시켰다.
  • 최고의 감소율인 50.11%는 잘 구성된 분류 체계를 사용하여 규칙를 일반화했을 때 달성되었으며, 이는 이 방법이 중복을 효과적으로 제거함을 보여준다.
  • 짧은 시간 창(예: 1일 데이터)에서 생성된 규칙 집합은 초기 규칙 수가 컸다(32,668개 규칙), 하지만 일반화 후에도 크게 감소하였다.
  • RulEE-GAR 모듈은 일반화된 규칙의 상호작용 탐색을 가능하게 하였으며, 원본 규칙 확장, 원본 규칙 복원, 측정 기반 필터링 기능을 포함하였다.
  • 각 일반화된 규칙에 대한 교차표 계산은 기본 측정치를 넘어서 신뢰도 및 지지도 평가를 뒷받침하는 추가 분석적 통찰을 제공하였다.
  • 감소율은 분류 체계 설계에 매우 의존적이었으며, 전문가가 설계한 분류 체계는 더 높은 감소율을 보였는데, 이는 도메인 지식이 이 방법의 영향력을 강화함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.