Skip to main content
QUICK REVIEW

[논문 리뷰] Normalization based K means Clustering Algorithm

Deepali Virmani, Shweta Taneja|arXiv (Cornell University)|2015. 03. 03.
Data Mining Algorithms and Applications참고 문헌 10인용 수 23
한 줄 요약

이 논문은 기존 K-means에 데이터 정규화를 적용하고 가중치를 고려한 초기 중심점 계산을 통해 전통적인 K-means를 향상시킨 정규화 기반 K-means(N-K-means) 클러스터링 알고리즘을 제안한다. 이 방법은 계산 복잡도를 감소시키고 클러스터링 성능을 향상시키며, 실험 결과를 통해 표준 K-means에 비해 뛰어난 정확도와 효율성을 보여준다.

ABSTRACT

K-means is an effective clustering technique used to separate similar data into groups based on initial centroids of clusters. In this paper, Normalization based K-means clustering algorithm(N-K means) is proposed. Proposed N-K means clustering algorithm applies normalization prior to clustering on the available data as well as the proposed approach calculates initial centroids based on weights. Experimental results prove the betterment of proposed N-K means clustering algorithm over existing K-means clustering algorithm in terms of complexity and overall performance.

연구 동기 및 목표

  • 표준 K-means가 특성 척도에 민감한 점을 해결하기 위해.
  • 데이터 정규화와 가중치 중심점 초기화를 통합하여 클러스터링 성능을 향상시키기 위해.
  • K-means 클러스터링 과정에서 계산 복잡도를 감소시키기 위해.
  • 사전 처리와 최적화된 초기화를 통해 수렴성과 클러스터링 결과의 정확도를 향상시키기 위해.

제안 방법

  • 클러스터링 전에 입력 데이터에 정규화를 적용하여 특성 간 척도 차이를 완화하기 위해.
  • 데이터 분포와 특성 중요도를 바탕으로 가중치 접근 방식을 사용해 초기 클러스터 중심점을 계산하기 위해.
  • 표준 K-means 알고리즘을 수정하여 반복적 할당 및 갱신 단계에서 정규화된 데이터와 가중치 중심점을 통합하기 위해.
  • 정규화된 특성을 사용하여 거리 기반 할당 규칙을 적용해 클러스터 소속을 계산하기 위해.
  • 수렴이 이루어질 때까지 정규화된 데이터 포인트를 사용해 중심점을 반복적으로 갱신하기 위해.
  • 정규화와 가중치 중심점 초기화를 핵심 K-means 프레임워크에 통합하여 안정성과 성능을 향상시키기 위해.

실험 결과

연구 질문

  • RQ1데이터 정규화는 K-means 알고리즘의 성능과 수렴에 어떤 영향을 미치는가?
  • RQ2무작위 또는 균일한 초기화에 비해 가중치 중심점 초기화가 클러스터링 정확도를 향상시킬 수 있는가?
  • RQ3정규화와 가중치 초기화를 결합하면 K-means 클러스터링의 계산 복잡도를 감소시킬 수 있는가?
  • RQ4제안된 N-K-means 알고리즘은 표준 K-means에 비해 클러스터링 품질과 효율성 측면에서 어떻게 비교되는가?

주요 결과

  • 제안된 N-K-means 알고리즘은 개선된 초기화와 데이터 정규화 덕분에 표준 K-means보다 더 나은 클러스터링 성능을 달성한다.
  • 정규화는 특성 척도의 격차가 미치는 영향을 줄여 더 안정적이고 정확한 클러스터 할당을 이끈다.
  • 가중치 중심점 계산은 수렴 속도와 최종 클러스터 품질을 향상시킨다.
  • 실험 결과는 계산 복잡도 감소와 향상된 전반적인 효율성을 입증한다.
  • 검토된 데이터셋 전반에서 클러스터링 정확도 향상이 일관되게 관찰된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.