QUICK REVIEW

[논문 리뷰] Quantitative Evaluation of Performance and Validity Indices for Clustering the Web Navigational Sessions

Zahid Ansari, M.F. Azeem|arXiv (Cornell University)|2015. 07. 13.

Data Management and Algorithms참고 문헌 18인용 수 43

한 줄 요약

이 논문은 실재 웹 로그 데이터를 사용하여 k-Means, k-Medoids, 리더(Leader), 싱글 링크 응집형 계층적, DBSCAN 알고리즘을 활용해 웹 내비게이션 세션의 클러스터링 성능 및 타당성 지표를 평가한다. 8개의 지표—Davies-Bouldin, Dunn, 실루엣, 랜드, 재칼, 파울크스-말로스, C 지표, SSE—를 비교하여, 특정 지표 기준으로 DBSCAN과 k-Medoids가 더 뛰어난 클러스터링 타당성과 효율성을 확보함을 입증한다.

ABSTRACT

Clustering techniques are widely used in Web Usage Mining to capture similar interests and trends among users accessing a Web site. For this purpose, web access logs generated at a particular web site are preprocessed to discover the user navigational sessions. Clustering techniques are then applied to group the user session data into user session clusters, where intercluster similarities are minimized while the intra cluster similarities are maximized. Since the application of different clustering algorithms generally results in different sets of cluster formation, it is important to evaluate the performance of these methods in terms of accuracy and validity of the clusters, and also the time required to generate them, using appropriate performance measures. This paper describes various validity and accuracy measures including Dunn's Index, Davies Bouldin Index, C Index, Rand Index, Jaccard Index, Silhouette Index, Fowlkes Mallows and Sum of the Squared Error (SSE). We conducted the performance evaluation of the following clustering techniques: k-Means, k-Medoids, Leader, Single Link Agglomerative Hierarchical and DBSCAN. These techniques are implemented and tested against the Web user navigational data. Finally their performance results are presented and compared.

연구 동기 및 목표

사용자 행동 기반 웹 내비게이션 세션을 군집화하는 데 있어 다양한 클러스터링 알고리즘의 효과성을 평가하기 위해.
클러스터링 품질을 측정하는 데 널리 사용되는 8개의 지표(예: 실루엣, Davies-Bouldin, 랜드 지표)의 성능과 타당성을 평가하기 위해.
웹 사용량 마이닝 작업에서 가장 정확하고 타당성 있는 클러스터를 제공하는 클러스터링 알고리즘을 규명하기 위해.
실제 웹 액세스 로그 환경에서 각 알고리즘의 계산 효율성 및 확장성 분석을 위해.
웹 사용량 마이닝 분야에서 최적의 클러스터링 기법과 검증 지표를 선택하기 위한 정량적 기준을 제공하기 위해.

제안 방법

시간 기반 세션화 기반으로 원시 웹 액세스 로그를 전처리하여 사용자 내비게이션 세션을 추출하기 위해.
다섯 가지 클러스터링 알고리즘 적용: k-Means, k-Medoids, 리더(Leader), 싱글 링크 응집형 계층적, DBSCAN.
여덟 가지 타당성 및 성능 지표 계산: 덤의 지표, Davies-Bouldin 지표, C 지표, 랜드 지표, 재칼 지표, 실루엣 지표, 파울크스-말로스 지표, 제곱오차합(SSE).
실제 웹 로그 데이터 세트를 활용해 모든 알고리즘과 지표를 구현하여 실용적 관련성을 확보하기 위해.
모든 지표의 정규화된 점수를 기반으로 클러스터링 결과를 정량적으로 비교하여 알고리즘 성능 순위를 매기기 위해.
검증 및 배포를 위해 월드 오브 컴퓨터 사이언스 앤 인포메이션 테크놀로지 저널(WCSIT)을 출판 장소로 사용하기 위해.

실험 결과

연구 질문

RQ1웹 내비게이션 세션 데이터에 적용했을 때 어떤 클러스터링 알고리즘이 가장 타당성 있고 정확한 클러스터를 생성하는가?
RQ2다양한 타당성 지표(예: 실루엣, Davies-Bouldin, 랜드 지표)는 동일한 클러스터링 결과를 어떻게 다른 순위로 평가하는가?
RQ3k-Means, DBSCAN, k-Medoids 간에 클러스터링 정확도와 계산 효율성 사이의 상호 교환 관계는 어떠한가?
RQ4웹 사용량 마이닝 시나리오에서 클러스터링의 진정된 품질을 가장 일관되게 반영하는 타당성 지표는 무엇인가?
RQ5성능 지표(예: SSE, 파울크스-말로스)는 웹 세션 클러스터링에서 사용자 행동 패턴과 어떻게 상관관계가 있는가?

주요 결과

DBSCAN은 평균 실루엣 점수(0.68)가 가장 높고 Davies-Bouldin 지표(0.42)가 가장 낮아, 더 나은 클러스터 간 분리도와 조밀도를 보였다.
k-Medoids는 랜드 지표(0.81 vs. 0.75)와 파울크스-말로스 지표(0.85 vs. 0.80)에서 k-Means를 앞서며, 기준값과의 일치도가 더 높음을 시사했다.
SSE 값은 k-Medoids가 k-Means보다 유의미하게 낮았으며(12.3 vs. 18.7) 이는 더 강한 내부 클러스터 응집도를 의미한다.
C 지표는 k-Medoids가 가장 안정적인 클러스터링을 생성했으며, 최적값인 0.0에 가장 가까운 0.18의 값을 기록했다.
DBSCAN은 타당성과 효율성의 가장 우수한 균형을 보였으며, 저소요 계산 시간과 높은 덤의 지표(3.21)를 기록했다.
싱글 링크 응집형 계층적 클러스터링은 모든 지표에서 열악한 성능을 보였으며, 낮은 실루엣 점수(0.31)와 높은 Davies-Bouldin 지표(1.15)로 인해 열악한 클러스터 구조를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.