Skip to main content
QUICK REVIEW

[논문 리뷰] Association Rule Pruning based on Interestingness Measures with Clustering

S. Kannan, R. Bhaskaran|ArXiv.org|2009. 12. 09.
Data Mining Algorithms and Applications참고 문헌 16인용 수 44
한 줄 요약

이 논문은 빈도수, 신뢰도, 리프트, 리버리지와 같은 관심도 측정값을 통합하여 중복 규칙를 줄이고 규칙 품질을 향상시키기 위해 군집화를 적용하는 새로운 연관 규칙 정제 방법을 제안한다. 지원도, 신뢰도, 리프트, 리버리지 등의 관심도 점수를 기반으로 규칙를 군집화함으로써, 가장 대표적이고 정보량이 많은 규칙만을 식별하고 유지함으로써 대규모 거래 데이터에서 의미 있는 패턴을 유지하면서도 규칙 집합의 크기를 크게 감소시킨다.

ABSTRACT

Association rule mining plays vital part in knowledge mining. The difficult task is discovering knowledge or useful rules from the large number of rules generated for reduced support. For pruning or grouping rules, several techniques are used such as rule structure cover methods, informative cover methods, rule clustering, etc. Another way of selecting association rules is based on interestingness measures such as support, confidence, correlation, and so on. In this paper, we study how rule clusters of the pattern Xi - Y are distributed over different interestingness measures.

연구 동기 및 목표

  • 대규모 거래 데이터에서 중복되거나 정보가 없는 규칙가 너무 많이 생성되는 '규칙 폭발' 문제를 해결하기 위해.
  • 가장 관심도가 높고 대표적인 규칙에 초점을 맞춰 추출된 규칙의 품질을 향상시키기 위해.
  • 비중요한 규칙을 정제함으로써 계산 오버헤드를 줄이고 해석 가능성을 향상시키기 위해.
  • 지원도, 신뢰도, 리프트, 리버리지와 같은 다수의 관심도 측정값에 따른 규칙 군집의 분포를 탐색하기 위해.
  • 군집화와 관심도 기반 정제를 융합한 하이브리드 방법을 제안하여 효과적인 규칙 선택을 수행하기 위해.

제안 방법

  • 각 연관 규칙에 대해 다수의 관심도 측정값—지원도, 신뢰도, 리프트, 리버리지—를 계산한다.
  • 유사도는 관심도 점수의 벡터에 기반한 거리 기반 군집화 알고리즘을 사용하여 규칙를 군집화한다.
  • 각 군집 내에서 평균 관심도 점수가 가장 높은 규칙을 대표 규칙으로 선정한다.
  • 모든 군집의 대표 규칙만 유지하고 나머지 규칙는 정제함으로써 중복성을 줄인다.
  • 규칙가 관심도 측정값 공간에서의 분포를 활용하여 밀도가 높고 의미 있는 군집을 식별한다.
  • 최종 규칙 집합은 오직 가장 정보량이 많고 다양한 규칙들로만 구성되어 있어 중복을 최소화하고 통찰력을 극대화한다.

실험 결과

연구 질문

  • RQ1지원도, 신뢰도, 리프트, 리버리지와 같은 다양한 관심도 측정값이 규칙 군집에 어떻게 분포되어 있는가?
  • RQ2규칙의 관심도 점수에 기반한 군집화가 최종 규칙 집합의 품질을 향상시키는 데 기여하는가?
  • RQ3비대표 규칙을 정제함으로써 규칙 집합의 크기와 정보량에 어떤 영향을 미치는가?
  • RQ4기존의 정제 기법과 비교했을 때 제안된 방법은 규칙의 다양성과 유용성 측면에서 어떤가?
  • RQ5관심도 공간 내에서 규칙의 분포는 대규모 거래 데이터 내 의미 있는 패턴을 드러내는가?

주요 결과

  • 제안된 방법은 중복되거나 정보가 적은 규칙을 정제함으로써 연관 규칙의 수를 크게 감소시킨다.
  • 군집에서 선정된 대표 규칙들은 높은 수준의 지원도, 신뢰도, 리프트를 유지하여 강력한 패턴 품질을 나타낸다.
  • 다수의 관심도 측정값에 기반한 군집화는 유사한 규칙들을 효과적으로 그룹화하여 효율적인 정제를 가능하게 하며 핵심 통찰을 유지한다.
  • 관심도 측정값에 따른 규칙의 분포는 조밀한 군집을 드러내며, 의미 있는 패턴과 일치하는 자연스러운 그룹화를 시사한다.
  • 정제되지 않은 규칙 집합에 비해 최종 규칙 집합은 더 해석 가능하고 계산 효율성이 높다.
  • 높은 관심도를 가진 군집에서 유사한 규칙에 초점을 맞춤으로써 규칙의 품질이 향상됨을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.