Skip to main content
QUICK REVIEW

[论文解读] Query Representation with Global Consistency on User Click Graphs

Daqiang Zhang, Rongbo Zhu|arXiv (Cornell University)|Sep 1, 2013
Advanced Graph Neural Networks被引用 2
一句话总结

本文提出了一种全局一致性模型用于查询表示,该模型在点击图中整合了URL的局部(点击频率)和全局(逆查询频率)属性。通过引入逆URL频率作为新型全局度量,该模型提升了表示学习性能,在AOL搜索日志数据集上的表现优于现有方法。

ABSTRACT

The Internet of Things aggregates large-scale query logs. A query log is generally represented as a bipartite graph on a query set and a URL set. Most of the traditional methods used the raw click frequency to weigh the link between a query and a URL on the click graph. In order to address the disadvantages of raw click frequency, researchers proposed the entropy-biased model, which incorporates raw click frequency with inverse query frequency of the URL as the weighting scheme for query representation. In this paper, we observe that the inverse query frequency can be considered a global property of the URL on the click graph, which is more informative than raw click frequency, which can be considered a local property of the URL. Based on this insight, we develop the global consistency model for query representation, which utilizes the click frequency and the inverse query frequency of a URL in a consistent manner. Furthermore, we propose a new scheme called inverse URL frequency as an effective way to capture the global property of a URL. Experiments have been conducted on the AOL search engine log data. The result shows that our global consistency model achieved better performance than the current models.

研究动机与目标

  • 通过整合URL的全局属性,解决原始点击频率在查询表示中的局限性。
  • 利用逆查询频率作为更具信息量的度量,对点击图中的URL全局一致性进行建模。
  • 提出一种新的全局度量——逆URL频率,以更好地捕捉点击图中URL的特征。
  • 通过在一致框架中统一局部和全局属性,改进查询表示学习。
  • 在真实世界搜索日志数据上评估所提模型的有效性。

提出的方法

  • 全局一致性模型在统一的表示框架中结合了URL的原始点击频率(局部属性)和逆查询频率(全局属性)。
  • 该模型引入了逆URL频率作为新的全局度量,其计算方式为点击图中与某一URL相关联的总查询数的倒数。
  • 加权方案采用一致的公式,整合局部和全局属性,以平衡相关性与分布信息。
  • 该方法利用查询-URL点击图的二分图结构,传播并聚合全局一致性信号。
  • 模型在AOL搜索引擎日志数据集上进行训练和评估,采用标准的检索与排序指标。
  • 该方法与基线模型(包括熵偏差模型)进行比较,以验证其在查询表示方面的优越性。

实验结果

研究问题

  • RQ1点击图中URL的全局属性如何在超越局部点击频率的基础上改善查询表示?
  • RQ2将逆查询频率作为全局度量引入查询表示会产生何种影响?
  • RQ3能否通过整合局部和全局属性的一致性框架,超越现有模型在查询表示中的表现?
  • RQ4所提出的逆URL频率度量在捕捉点击图中有意义的全局模式方面有多有效?
  • RQ5全局一致性模型是否能在真实世界搜索日志中带来可测量的检索性能提升?

主要发现

  • 全局一致性模型在查询表示学习方面优于现有模型,包括熵偏差方法。
  • 引入逆URL频率作为全局度量,显著增强了模型捕捉有意义URL特征的能力。
  • 在一致框架中整合局部与全局属性,可生成更鲁棒且信息量更丰富的查询表示。
  • 该模型在AOL搜索引擎日志数据集上实现了更优性能,证明了其在真实场景中的有效性。
  • 结果证实,如逆查询频率等全局属性提供的信号比仅依赖原始点击频率更具信息量。
  • 所提方法在标准评估指标上表现出一致的性能提升,验证了其设计选择的合理性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。