Skip to main content
QUICK REVIEW

[논문 리뷰] Tell Me Something I Don't Know: Randomization Strategies for Iterative Data Mining

Sami Hanhijärvi, Markus Ojala|arXiv (Cornell University)|2020. 06. 16.
Data Mining Algorithms and Applications참고 문헌 16인용 수 72
한 줄 요약

이 논문은 이미 발견된 패턴을 보존하는 확률적 데이터 무작위화 방법을 도입하여 반복 데이터 마이닝에서 유의성 검정을 가능하게 한다. 누적 결과를 널 모델에 포함시키면 새로운 패턴과 구조의 추론된 유의성이 달라질 수 있음을 보여준다.

ABSTRACT

There is a wide variety of data mining methods available, and it is generally useful in exploratory data analysis to use many different methods for the same dataset. This, however, leads to the problem of whether the results found by one method are a reflection of the phenomenon shown by the results of another method, or whether the results depict in some sense unrelated properties of the data. For example, using clustering can give indication of a clear cluster structure, and computing correlations between variables can show that there are many significant correlations in the data. However, it can be the case that the correlations are actually determined by the cluster structure. In this paper, we consider the problem of randomizing data so that previously discovered patterns or models are taken into account. The randomization methods can be used in iterative data mining. At each step in the data mining process, the randomization produces random samples from the set of data matrices satisfying the already discovered patterns or models. That is, given a data set and some statistics (e.g., cluster centers or co-occurrence counts) of the data, the randomization methods sample data sets having similar values of the given statistics as the original data set. We use Metropolis sampling based on local swaps to achieve this. We describe experiments on real data that demonstrate the usefulness of our approach. Our results indicate that in many cases, the results of, e.g., clustering actually imply the results of, say, frequent pattern discovery.

연구 동기 및 목표

  • 이전 분석에서 얻은 정보 이상의 정보를 데이터 마이닝 방법의 결과가 제공하는지 평가할 필요성을 제시합니다.
  • 이전에 발견된 패턴이나 모델을 보존하는 무작위화 기반 널(null) 모델을 개발합니다.
  • 이전 발견을 존중하는 무작위 데이터 세트와 원래 결과를 비교하여 반복적 데이터 마이닝에서 유의성 검정을 가능하게 합니다.

제안 방법

  • 데이터 마이닝 작업의 결과를 요약하는 구조적 척도들을 정의합니다.
  • 지정된 통계를 보존하는 무작위 데이터 세트를 생성하기 위해 로컬 스왑이 포함된 메트로폴리스 샘플링을 사용합니다.
  • 마진, 클러스터링, 및 항목집합 빈도에 대한 정확(ExactRand) 및 소프트(SoftRand) 무작위화 문제를 제공합니다.
  • 원래의 구조적 척도를 무작위 데이터 세트의 분포와 비교하여 경험적 p-값을 계산합니다.
  • 항목집합-마진 보존의 정확성의 복잡도를 증명하는 어려움을 다루고, 실용적 대안으로 SoftRand를 제안합니다.
  • 마진 보존, 클러스터링 구조 보존 및 항목집합 빈도 보존(SoftRand)을 위한 알고리즘을 설명하고 스왑 기반 MCMC 방법을 사용합니다.

실험 결과

연구 질문

  • RQ1발견된 패턴이나 클러스터가 이전에 관찰된 구조를 넘어서는 정보를 제공하는지 어떻게 판단할 수 있을까요?
  • RQ2반복적 마이닝에서 유의성을 검정하기 위해 알려진 통계치(마진, 중심 클러스터, 항목집합 빈도)를 보존하는 무작위 데이터 세트를 생성할 수 있을까요?
  • RQ3널 모델에서 이전 결과를 보존하는 것이 새로 발견된 패턴이나 클러스터의 유의성에 어떤 영향을 미칠까요?

주요 결과

  • 이전 분석을 보존하는 무작위화는 경험적 p-값을 바꿀 수 있으며, 이전 빈도가 고려될 때 더 큰 패턴이 비유의하게 보일 수 있습니다.
  • 마진만으로 검정할 경우 클러스터링 결과가 유의하게 보일 수 있지만, 항목집합 빈도도 보존되면 유의성이 사라질 수 있습니다.
  • 항목집합-마진 보존은 일반적으로 계산적으로 어렵다는 것을 보여주며, 소프트랜덤라이제이션 접근법의 필요성을 제시합니다.
  • 메트로폴리스 기반 SoftRand는 계산을 합리적으로 유지하면서 항목집합 빈도 보존을 근사하는 실용적인 방법을 제공합니다.
  • 실제 데이터 실험에서 이전 패턴을 보존하면 종종 클러스터링과 항목집합 패턴 간의 의존성을 드러내 유의성 결론에 영향을 미칩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.