QUICK REVIEW

[论文解读] Web Mining Research: A Survey

Raymond Kosala, Hendrik Blockeel|ArXiv.org|Nov 22, 2000

Web Data Mining and Analysis参考文献 91被引用 174

一句话总结

本文基于数据来源和目的，将网络挖掘系统性地划分为三类——网页内容挖掘、网页结构挖掘和网页使用挖掘。该研究澄清了术语混淆问题，将现有研究映射到这些类别，并与智能体范式关联，强调在信息检索、机器学习和自然语言处理中的表示方法、学习算法及应用。

ABSTRACT

With the huge amount of information available online, the World Wide Web is a fertile area for data mining research. The Web mining research is at the cross road of research from several research communities, such as database, information retrieval, and within AI, especially the sub-areas of machine learning and natural language processing. However, there is a lot of confusions when comparing research efforts from different point of views. In this paper, we survey the research in the area of Web mining, point out some confusions regarded the usage of the term Web mining and suggest three Web mining categories. Then we situate some of the research with respect to these three categories. We also explore the connection between the Web mining categories and the related agent paradigm. For the survey, we focus on representation issues, on the process, on the learning algorithm, and on the application of the recent works as the criteria. We conclude the paper with some research issues.

研究动机与目标

澄清不同研究领域中对'网络挖掘'一词使用模糊且不一致的问题。
基于数据来源和应用目的，提出网络挖掘的三类框架——内容挖掘、结构挖掘和使用挖掘。
使用表示、过程、学习算法和应用等标准，将现有研究系统性地归入这三类。
探讨网络挖掘类别与智能体范式之间的关联。
识别网络挖掘中的关键研究挑战与未来方向，尤其关注可扩展性、时间动态性以及基于图的学习。

提出的方法

将网络挖掘划分为三类：网页内容挖掘（来自非结构化文本）、网页结构挖掘（来自超链接图）和网页使用挖掘（来自服务器日志和点击流）。
以表示、过程、学习算法和应用为核心标准，分析并比较各领域的近期研究。
将每类网络挖掘映射到相应的智能体范式：基于内容的智能体用于内容挖掘，结构感知智能体用于结构挖掘，用户建模智能体用于使用挖掘。
回顾现有文献，并综述信息检索、机器学习和自然语言处理中与各类网络挖掘相关的关键工作。
分析图结构在网络挖掘中的作用，并讨论开发可利用网络特有数据结构的专用学习算法的必要性。
考察信息集成与网络仓库项目作为关键应用领域，体现数据库、信息检索与机器学习领域在这些项目中的交汇。

实验结果

研究问题

RQ1网络挖掘的主要数据来源和核心目标是什么？如何实现系统性分类？
RQ2为何'网络挖掘'这一术语在不同研究领域中常被不一致地使用？
RQ3所提出的三类网络挖掘——内容、结构和使用——如何与不同类型的学习及智能体行为相关联？
RQ4将传统数据挖掘技术应用于网络数据时面临的主要挑战是什么？尤其在可扩展性、多媒体内容和时间动态性方面？
RQ5如何整合机器学习与信息检索技术，以提升网络挖掘应用（如搜索、个性化和知识发现）的性能？

主要发现

'网络挖掘'一词在不同学科中常被误用和混淆，导致研究比较与定义上的困惑。
网络挖掘可系统性地划分为三类：内容挖掘（来自文本）、结构挖掘（来自超链接）和使用挖掘（来自访问日志），每类具有独特数据来源和目标。
网络内容挖掘研究日益聚焦于信息集成，包括网络知识库和网络仓库的构建，常涉及包装器归纳与模式匹配。
图结构（尤其是超链接网络）在网络挖掘中普遍存在，为开发或改进可利用拓扑特征的机器学习算法提供了机遇。
网络使用挖掘通过分析导航模式支持个性化与用户建模，助力推荐系统和自适应网页界面等应用。
数据库、信息检索与机器学习领域的融合在信息集成与网络仓库项目中最为显著，这些项目应对了模式异构性和包装器维护等挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。