Skip to main content
QUICK REVIEW

[논문 리뷰] A Survey on Preprocessing Methods for Web Usage Data

V. Chitraa, Antony Selvdoss Davamani|arXiv (Cornell University)|2010. 04. 08.
Data Mining Algorithms and Applications참고 문헌 5인용 수 84
한 줄 요약

이 논문은 웹 사용 데이터의 전처리 기법을 조사하며, 웹 로그 파일에서 세션 재구성과 노이즈 처리에 중점을 둔다. 원시적이고 노이즈가 많은 로그를 구조화된 세션 수준의 데이터로 변환하는 방법을 평가하여, 개인화 및 적응형 웹 설계와 같은 응용 분야에서 효과적인 웹 사용 탐사가 가능하도록 한다.

ABSTRACT

World Wide Web is a huge repository of web pages and links. It provides abundance of information for the Internet users. The growth of web is tremendous as approximately one million pages are added daily. Users' accesses are recorded in web logs. Because of the tremendous usage of web, the web log files are growing at a faster rate and the size is becoming huge. Web data mining is the application of data mining techniques in web data. Web Usage Mining applies mining techniques in log data to extract the behavior of users which is used in various applications like personalized services, adaptive web sites, customer profiling, prefetching, creating attractive web sites etc., Web usage mining consists of three phases preprocessing, pattern discovery and pattern analysis. Web log data is usually noisy and ambiguous and preprocessing is an important process before mining. For discovering patterns sessions are to be constructed efficiently. This paper reviews existing work done in the preprocessing stage. A brief overview of various data mining techniques for discovering patterns, and pattern analysis are discussed. Finally a glimpse of various applications of web usage mining is also presented.

연구 동기 및 목표

  • 웹 사용 데이터 전처리 기법을 분석하고 분류하여 마이닝 이전의 데이터 품질을 향상시키기 위한 것이다.
  • 웹 트래픽의 높은 볼륨과 복잡성으로 인해 발생하는 노이즈가 많고 모호한 웹 로그 데이터를 처리하는 데 있어 도전 과제를 규명하기 위한 것이다.
  • 웹 사용 마이닝의 핵심 단계인 효과적인 세션 재구성의 기초를 마련하기 위한 것이다.
  • 데이터 준비 향상으로 인해 개인화, 고객 프로파일링, 적응형 웹 시스템과 같은 후속 응용 분야를 지원하기 위한 것이다.
  • 세션화, 데이터 정제, 정규화 기법을 포함한 전처리 방법에 대한 종합적인 개요를 제공하기 위한 것이다.

제안 방법

  • 원시 웹 로그에서 세션 재구성에 중점을 두고 기존 웹 사용 데이터 전처리 기법을 조사하고 분류하는 것.
  • 봇 트래픽 제거 및 일관성 없는 타임스탬프 수정과 같은 노이즈 처리 기법 분석.
  • 시간 간격과 사용자 식별자 기반으로 사용자 요청을 논리적 세션으로 그룹화하는 세션화 알고리즘 평가.
  • 분석의 일관성을 확보하기 위해 사용자 에이전트 문자열, URL 및 기타 속성을 표준화하는 정규화 방법 검토.
  • 대규모 웹 로그 데이터 세트에서 정확도, 효율성, 확장성 측면에서 최첨단 접근 방식을 비교하는 것.
  • 데이터 특성과 목표 응용 분야에 따라 전처리 기법을 선택하는 프레임워크 제공.

실험 결과

연구 질문

  • RQ1사용 마이닝을 위해 원시 웹 로그 데이터를 전처리하는 데 있어 주요 과제는 무엇인가?
  • RQ2다양한 세션화 기법은 시간 간격과 사용자 세션 경계를 어떻게 처리하는가?
  • RQ3웹 로그에서 노이즈를 줄이고 데이터 품질을 향상시키는 데 효과적인 방법은 무엇인가?
  • RQ4전처리 선택 사항은 웹 사용 마이닝에서 후속 패턴 탐지의 정확도와 효율성에 어떤 영향을 미치는가?
  • RQ5웹 사용 데이터 전처리에서 확장성과 정밀도 사이의 상충 관계는 무엇인가?

주요 결과

  • 전처리는 웹 사용 마이닝에서 매우 중요하고 비단순한 단계이며, 이후 분석 품질에 큰 영향을 미친다.
  • 일관되지 않은 로깅 관행과 표준화된 세션 경계의 부재로 인해 세션 재구성이 여전히 주요 과제로 남아 있다.
  • 봇 탐지 및 로그 필터링과 같은 노이즈 감소 기법은 데이터 품질을 향상시키고 잘못된 패턴을 줄이는 데 기여한다.
  • URL 및 사용자 에이전트 문자열의 정규화는 일관성을 향상시키고 더 정확한 사용자 행동 분석을 가능하게 한다.
  • 전처리 방법의 선택은 웹 사용 마이닝에서 패턴 탐지의 성능과 신뢰성에 직접적인 영향을 미친다.
  • 단일 전처리 방법이 언제나 최적은 아니며, 선택은 데이터 특성과 응용 목표에 따라 달라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.