Skip to main content
QUICK REVIEW

[논문 리뷰] Web Mining Research: A Survey

Raymond Kosala, Hendrik Blockeel|ArXiv.org|2000. 11. 22.
Web Data Mining and Analysis참고 문헌 91인용 수 174
한 줄 요약

이 논문은 데이터 소스와 목적에 기반하여 웹 마이닝을 웹 콘텐츠 마이닝, 웹 구조 마이닝, 웹 사용 마이닝의 세 가지 범주로 체계적으로 분류한다. 용어 혼동을 명확히 하고, 연구를 이 세 범주로 맵핑하며, 지능형 에이전트 파라다임과 연결하여 정보 검색, 기계 학습, 자연어 처리 분야에서의 표현 방식, 학습 알고리즘, 그리고 응용 사례에 중점을 둔다.

ABSTRACT

With the huge amount of information available online, the World Wide Web is a fertile area for data mining research. The Web mining research is at the cross road of research from several research communities, such as database, information retrieval, and within AI, especially the sub-areas of machine learning and natural language processing. However, there is a lot of confusions when comparing research efforts from different point of views. In this paper, we survey the research in the area of Web mining, point out some confusions regarded the usage of the term Web mining and suggest three Web mining categories. Then we situate some of the research with respect to these three categories. We also explore the connection between the Web mining categories and the related agent paradigm. For the survey, we focus on representation issues, on the process, on the learning algorithm, and on the application of the recent works as the criteria. We conclude the paper with some research issues.

연구 동기 및 목표

  • 연구 공동체 간에 뚜렷하지 않고 일관되지 않은 '웹 마이닝'이라는 용어의 사용을 명확히 하기 위해.
  • 데이터 소스와 응용 목적에 기반하여 웹 콘텐츠 마이닝, 웹 구조 마이닝, 웹 사용 마이닝의 세 가지 범주로 구성된 웹 마이닝 프레임워크를 제안하기 위해.
  • 표현 방식, 처리 방식, 학습 알고리즘, 응용 분야 등의 기준을 사용하여 각 범주 내에서 최근 연구를 분석하고 비교함으로써 기존 연구를 이 세 범주 내에 위치시키기 위해.
  • 웹 마이닝 범주와 지능형 에이전트 파라다임 간의 관계를 탐색하기 위해.
  • 특히 확장성, 시간적 동역학, 그래프 기반 학습과 관련된 핵심 연구 과제와 향후 방향을 규명하기 위해.

제안 방법

  • 웹 마이닝을 세 가지 명확한 범주로 분류한다: 웹 콘텐츠 마이닝(비정형 텍스트에서), 웹 구조 마이닝(하이퍼링크 그래프에서), 웹 사용 마이닝(서버 로그 및 클릭스트림에서).
  • 각 범주에서 최근 연구를 분석하고 비교하기 위해 표현 방식, 처리 방식, 학습 알고리즘, 응용 분야를 핵심 기준으로 사용한다.
  • 각 웹 마이닝 범주를 해당하는 에이전트 파라다임에 맵핑한다: 콘텐츠 기반 에이전트는 콘텐츠 마이닝에, 구조 인식 에이전트는 구조 마이닝에, 사용자 모델링 에이전트는 사용 마이닝에 대응한다.
  • 정보 검색, 기계 학습, 자연어 처리 분야에서 각 범주와 관련된 핵심 논문들을 검토하고 종합한다.
  • 웹 마이닝에서 그래프 구조의 역할을 분석하고, 웹 전용 데이터 구조를 활용할 수 있는 특수화된 학습 알고리즘의 필요성을 논의한다.
  • 데이터베이스, 정보 검색, 기계 학습 공동체가 융합되는 핵심 응용 분야인 정보 통합 및 웹 웨어하우스 프로젝트를 분석한다.

실험 결과

연구 질문

  • RQ1웹 마이닝의 주요 데이터 소스와 주요 목표는 무엇이며, 이를 체계적으로 분류할 수 있는 방법은 무엇인가?
  • RQ2왜 '웹 마이닝'이라는 용어는 다양한 연구 공동체 간에 자주 일관되지 않게 사용되는가?
  • RQ3제안된 세 가지 웹 마이닝 범주—콘텐츠 마이닝, 구조 마이닝, 사용 마이닝—는 각각 어떤 종류의 학습과 에이전트 행동과 관련이 있는가?
  • RQ4기존 데이터 마이닝 기법을 웹 데이터에 적용할 때의 주요 과제는 무엇인가, 특히 확장성, 다중미디어 콘텐츠, 시간적 동역학 때문에 발생하는가?
  • RQ5기계 학습과 정보 검색 기법을 어떻게 통합하여 웹 마이닝 응용 분야(예: 검색, 개인화, 지식 탐사)를 향상시킬 수 있는가?

주요 결과

  • '웹 마이닝'이라는 용어는 다양한 분야에서 자주 잘못 사용되고 혼동되어 연구 비교 및 정의에 혼란을 야기한다.
  • 웹 마이닝은 체계적으로 세 가지 유형으로 분류될 수 있다: 콘텐츠 마이닝(텍스트에서), 구조 마이닝(하이퍼링크에서), 사용 마이닝(접근 로그에서), 각각 고유한 데이터 소스와 목적이 있다.
  • 웹 콘텐츠 마이닝 분야의 연구는 정보 통합, 특히 웹 지식 기반 및 웹 웨어하우스 구축에 점점 더 집중하고 있으며, 워퍼 유도 및 스키마 매칭 기법을 포함하는 경우가 많다.
  • 그래프 구조—특히 하이퍼링크 네트워크—는 웹 마이닝에서 널리 퍼져 있으며, 위상적 특징을 활용할 수 있는 새로운 또는 개선된 기계 학습 알고리즘의 기회를 제공한다.
  • 웹 사용 마이닝은 탐색 패턴 분석을 통해 개인화 및 사용자 모델링을 가능하게 하며, 추천 시스템 및 적응형 웹 인터페이스와 같은 응용 분야를 지원한다.
  • 정보 통합 및 웹 웨어하우스 프로젝트에서 데이터베이스, 정보 검색, 기계 학습 공동체의 융합이 가장 뚜렷하게 나타나며, 스키마 이질성 및 워퍼 유지보수 등의 과제를 해결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.