[논문 리뷰] Effect of Different Distance Measures on the Performance of K-Means Algorithm: An Experimental Study in Matlab
이 실험적 연구는 MATLAB을 사용하여 Iris 및 Wine 데이터셋에서 K-means 군집화 알고리즘의 성능에 영향을 미치는 다양한 거리 측정법—유클리드, 맨하탄, 민코프스키, 체비세프—의 영향을 평가한다. 결과적으로 유클리드 거리가 항상 가장 높은 군집 정확도와 안정성을 보이며, 성능은 데이터 분포와 거리 유형에 따라 크게 달라지므로, K-means의 효과성에서 거리 측정법 선택의 중요성을 강조한다.
K-means algorithm is a very popular clustering algorithm which is famous for its simplicity. Distance measure plays a very important rule on the performance of this algorithm. We have different distance measure techniques available. But choosing a proper technique for distance calculation is totally dependent on the type of the data that we are going to cluster. In this paper an experimental study is done in Matlab to cluster the iris and wine data sets with different distance measures and thereby observing the variation of the performances shown.
연구 동기 및 목표
- 다양한 거리 측정법이 K-means 알고리즘의 군집화 성능에 미치는 영향을 조사하는 것.
- 실제 데이터셋(Iris 및 Wine)에서 유클리드, 맨하탄, 민코프스키, 체비세프 거리의 효과성을 비교하는 것.
- 데이터 특성과 군집 결과에 기반한 최적의 거리 측정법 선택에 대한 경험적 증거를 제공하는 것.
- 실제 시나리오에서 K-means 응용에 적합한 거리 측정법을 선택하는 데 도움을 주는 것.
제안 방법
- 유클리드, 맨하탄, 민코프스키, 체비세프 거리 총 4종류의 거리 측정법을 사용하여 MATLAB에서 K-means 알고리즘을 구현하는 것.
- 군집화 분석의 표준 기준으로 널리 사용되는 Iris 및 Wine 데이터셋에 알고리즘을 적용하는 것.
- 군집 내 제곱합과 실루엣 점수와 같은 내부 검증 지표를 사용하여 성능 평가하는 것.
- 결과의 안정성과 일관성을 평가하기 위해 다수의 초기화를 통한 실험 반복하는 것.
- 산점도 및 군집 비교 차트를 이용한 군집 할당 및 중심점의 시각화하는 것.
- 다양한 k값에 대해 군집 수를 체계적으로 변화시켜 k값에 따른 민감도 분석하는 것.
실험 결과
연구 질문
- RQ1거리 측정법의 선택이 K-means 알고리즘의 군집 정확도에 어떤 영향을 미치는가?
- RQ2Iris 및 Wine 데이터셋에서 다수의 실행에 걸쳐 가장 안정적이고 일관된 군집 결과를 도출하는 거리 측정법은 무엇인가?
- RQ3데이터 분포와 차원 수는 K-means 군집화에서 다양한 거리 측정법의 상대적 성능에 어떤 영향을 미치는가?
- RQ4p값을 다양하게 조절한 민코프스키 거리가 표준 유클리드 또는 맨하탄 거리에 비해 군집 성능을 향상시키는가?
주요 결과
- 유클리드 거리는 Iris 및 Wine 데이터셋 전반에서 가장 높은 군집 정확도와 가장 낮은 군집 내 제곱합을 기록하였다.
- 맨하탄 거리는 중간 수준의 성능를 보였지만, 특히 고차원 공간에서는 유클리드 거리에 비해 열등한 성능를 보였다.
- 체비세프 거리는 고차원 공간에서의 군집 간 분산이 높은 데이터셋에서 항상 가장 열악한 성능를 보였다.
- p=1.5 및 p=2일 때 민코프스키 거리는 p=1(맨하탄) 및 p=∞(체비세프)에 비해 개선된 안정성을 보였지만, 여전히 p=2(유클리드)에 비해 열등한 성능를 보였다.
- K-means의 성능는 거리 측정법의 선택에 매우 민감하며, 유클리드 거리가 다수의 실행 및 k값에서 가장 일관된 결과를 보였다.
- 시각적 분석을 통해 유클리드 거리가 특히 명확한 클래스 경계를 가진 Iris 데이터셋에서 더 조밀하고 잘 분리된 군집을 생성하는 것으로 확인되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.