Skip to main content
QUICK REVIEW

[论文解读] Harnessing the Deep Web: Present and Future

Jayant Madhavan, Loredana Afanasiev|UvA-DARE (University of Amsterdam)|Sep 9, 2009
Web Data Mining and Analysis参考文献 14被引用 94
一句话总结

本文提出了一套实用的系统,通过自动化爬取和查询接口提取,实现对结构化深层网页内容的暴露,通过在50多种语言和数百个域名上每秒索引超过1,000个搜索查询,展示了其在现实世界中的可扩展性。该文将内容暴露方法与虚拟集成进行对比,主张前者在生产环境中的实用性和可扩展性,同时指出了在整合异构结构化数据方面存在的关键研究挑战。

ABSTRACT

Over the past few years, we have built a system that has exposed large volumes of Deep-Web content to Google.com users. The content that our system exposes contributes to more than 1000 search queries per-second and spans over 50 languages and hundreds of domains. The Deep Web has long been acknowledged to be a major source of structured data on the web, and hence accessing Deep-Web content has long been a problem of interest in the data management community. In this paper, we report on where we believe the Deep Web provides value and where it does not. We contrast two very different approaches to exposing Deep-Web content -- the surfacing approach that we used, and the virtual integration approach that has often been pursued in the data management literature. We emphasize where the values of each of the two approaches lie and caution against potential pitfalls. We outline important areas of future research and, in particular, emphasize the value that can be derived from analyzing large collections of potentially disparate structured data on the web.

研究动机与目标

  • 评估深层网页数据在真实世界搜索系统中的实际价值与局限性。
  • 对比内容暴露与虚拟集成两种方法在访问深层网页内容方面的表现。
  • 识别在整合大规模、异构结构化数据方面所面临的挑战与机遇。
  • 展示生产规模深层网页索引系统的可行性与性能。

提出的方法

  • 使用查询模板和表单填充启发式方法对深层网页数据库进行自动化爬取。
  • 通过程序化提交查询和解析响应,从动态网页表单中提取结构化数据。
  • 将暴露的内容索引到集中式搜索索引中,以实现高效检索。
  • 采用语言无关和模式无关的技术,处理多语言和异构数据源。
  • 部署可扩展的基础设施,支持在多样化域名上每秒处理超过1,000个查询。
  • 通过查询量、语言多样性及域名覆盖范围评估系统性能。

实验结果

研究问题

  • RQ1在大规模暴露深层网页数据方面,内容暴露方法相较于虚拟集成方法的有效性如何?
  • RQ2在真实世界部署中,两种方法的实际限制与性能权衡是什么?
  • RQ3使用自动化技术,能够有效索引的深层网页中结构化数据的规模与多样性如何?
  • RQ4该系统如何在无需预先进行模式对齐的情况下,处理多语言和异构数据源?
  • RQ5构建用于深层网页内容暴露的生产级系统面临的关键挑战是什么?

主要发现

  • 内容暴露方法成功实现了每秒在50多种语言和数百个域名上索引并暴露超过1,000个搜索查询。
  • 该系统表现出高度可扩展性和真实世界性能,证实了大规模深层网页内容暴露的可行性。
  • 尽管虚拟集成在理论上具有优势,但内容暴露在生产部署中被证明更具实用性和可扩展性。
  • 由于模式异构性和数据质量问题,整合异构结构化数据源仍面临重大挑战。
  • 本文将大规模、异构结构化数据的分析确定为未来关键研究方向,具有巨大的潜在价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。