Skip to main content
QUICK REVIEW

[论文解读] Truth Finding on the Deep Web: Is the Problem Solved?

Xian Li, Dong Xin|arXiv (Cornell University)|Mar 1, 2015
Mobile Crowdsensing and Crowdsourcing参考文献 17被引用 50
一句话总结

本文研究了股票和航班领域在深度网络(Deep Web)数据中的真相发现,揭示了尽管应用场景具有高风险,但数据普遍存在不一致性和低质量来源。尽管最先进的融合方法平均准确率达到96%,但性能极不稳定,且来源可信度和数据复制行为显著影响结果,凸显了当前技术在融合、复制检测和标准金数据构建方面存在关键缺陷,亟需改进。

ABSTRACT

The amount of useful information available on the Web has been growing at a dramatic pace in recent years and people rely more and more on the Web to fulfill their information needs. In this paper, we study truthfulness of Deep Web data in two domains where we believed data are fairly clean and data quality is important to people's lives: {\em Stock} and {\em Flight}. To our surprise, we observed a large amount of inconsistency on data from different sources and also some sources with quite low accuracy. We further applied on these two data sets state-of-the-art {\em data fusion} methods that aim at resolving conflicts and finding the truth, analyzed their strengths and limitations, and suggested promising research directions. We wish our study can increase awareness of the seriousness of conflicting data on the Web and in turn inspire more research in our community to tackle this problem.

研究动机与目标

  • 评估股票和航班等高风险领域中深度网络数据的真实性与一致性。
  • 评估现有数据融合技术是否能可靠地解决冲突并识别多个来源中的真实值。
  • 识别当前融合方法的局限性,并揭示在来源可信度建模、数据复制检测和标准金数据构建方面的研究空白。
  • 通过展示即使在‘干净’领域中数据质量也严重受损、融合技术尚未足够稳健和一致,激发进一步研究。

提出的方法

  • 从股票和航班领域多个来源收集并整理深度网络数据,通过手动模式和实例映射解决异构性问题。
  • 通过信任选定的权威来源构建标准金数据,尽管承认这些标准金数据可能存在不准确之处。
  • 应用一系列最先进的数据融合技术,包括投票法、可信度感知融合、复制感知融合(如AccuCopy)以及基于相似度的方法。
  • 使用精确率、召回率和F1值评估融合结果,比较不同方法的性能并分析错误来源。
  • 识别由于模糊性、过时数据和错误导致的数据冲突,并分析来源复制和可信度对融合准确率的影响。
  • 提出未来的方法改进方向,如种子可信度估计、类别特定质量检测、集成融合以及多真相处理。

实验结果

研究问题

  • RQ1在股票和航班等高风险领域中,深度网络数据的一致性如何?有多少比例的数值是错误或冲突的?
  • RQ2权威来源在多大程度上提供了准确且全面的数据?是否可以完全依赖它们?
  • RQ3当前最先进的数据融合技术在解决冲突和识别真实值方面的有效性如何?
  • RQ4现有融合方法的关键局限性是什么,特别是关于来源可信度、数据复制以及模式/实例映射方面?
  • RQ5在标准金数据构建、复制检测和评估框架方面,需要哪些改进以实现更可靠的数据融合?

主要发现

  • 70%的数据项在不同来源中存在多个值,其中50%的冲突源于模糊性,20%源于过时数据,30%源于明显错误。
  • 仅有70%的正确值由超过一半的来源提供,且超过10%的正确值报告频率低于错误值。
  • 最先进的融合方法在两个数据集上的平均准确率达到96%,但不同方法和数据项之间的性能差异显著。
  • 若能准确估计来源可信度,几乎可修复最佳融合结果中近一半的剩余错误,表明可信度建模至关重要,但目前仍不够精确。
  • 观察到来源间存在数据复制现象,且常涉及低质量数据,这使真相发现更加复杂,提示复制检测技术亟需改进。
  • 没有单一融合方法始终优于其他方法,也不存在普遍更优的方法,表明需要采用集成或自适应融合策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。