Skip to main content
QUICK REVIEW

[论文解读] Simrank++: Query rewriting through link analysis of the click graph

Ioannis Antonellis, Héctor García-Molina|ArXiv.org|Dec 4, 2007
Advanced Graph Neural Networks参考文献 9被引用 46
一句话总结

本文提出 Simrank++ 作为一种增强的赞助搜索查询重写框架,通过结合点击图中的边权重和证据得分,对传统 SimRank 进行改进。该方法显著提升了重写质量、覆盖率和深度,加权 Simrank 在 5 个重写结果中达到 86% 的精确率,且顶级重写准确率达到 96%,优于基线方法。

ABSTRACT

We focus on the problem of query rewriting for sponsored search. We base rewrites on a historical click graph that records the ads that have been clicked on in response to past user queries. Given a query q, we first consider Simrank as a way to identify queries similar to q, i.e., queries whose ads a user may be interested in. We argue that Simrank fails to properly identify query similarities in our application, and we present two enhanced version of Simrank: one that exploits weights on click graph edges and another that exploits ``evidence.'' We experimentally evaluate our new schemes against Simrank, using actual click graphs and queries form Yahoo!, and using a variety of metrics. Our results show that the enhanced methods can yield more and better query rewrites.

研究动机与目标

  • 为解决在直接出价稀缺时生成有效查询重写的挑战。
  • 通过考虑点击图的结构和定量特征,改进标准 SimRank。
  • 通过利用历史点击模式和相似性传播,提升查询重写的数量和质量。
  • 使用真实世界 Yahoo! 点击数据和人工评估,评估增强版 SimRank 变体的有效性。
  • 开发一种可扩展、数据驱动的查询重写方法,以支持更优的广告定位和收入增长。

提出的方法

  • 将 SimRank 扩展至基于双分图点击图(连接查询与广告)建模查询相似性。
  • 引入加权 Simrank,将点击图中的边权重纳入考量,以反映点击频率或置信度。
  • 提出基于证据的 Simrank,用于量化查询之间间接相似路径的强度。
  • 基于点击图中的共同邻居进行迭代相似性计算,包含归一化和收敛性检查。
  • 采用子图提取技术,聚焦于相关查询-广告交互以提升可扩展性。
  • 将相似性得分与人工评估及精确率/召回率指标结合,用于重写结果的排序与验证。

实验结果

研究问题

  • RQ1当查询和广告内容均较简略时,SimRank 是否能有效识别赞助搜索中的有用查询重写?
  • RQ2点击图中的边权重如何影响查询相似性得分的质量和可靠性?
  • RQ3基于证据的相似性在多大程度上提升了查询重写的覆盖率和相关性?
  • RQ4加权 Simrank 与基线方法相比,在精确率、召回率和重写深度方面表现如何?
  • RQ5增强版 SimRank 变体是否能比现有技术更准确地预测查询重写候选的吸引力?

主要发现

  • 加权 Simrank 在 5 个重写结果中达到 86% 的精确率,显著优于基于证据的 Simrank(80%)和简单 Simrank(75%)。
  • 该方法维持了 99% 的查询覆盖率,其中 96% 的查询获得了高质量的顶级重写,优于基于证据的 Simrank(81%)和简单 Simrank(80%)。
  • 加权 Simrank 正确预测了 92% 测试查询中最理想的重写,优于基于证据的 Simrank(54%)和简单 Simrank(54%)。
  • 超过 85% 的查询通过增强方法获得了五个重写结果,其中基于证据的 Simrank 达到 89%,加权 Simrank 保持了该深度。
  • 引入证据得分显著提升了重写质量和深度,而加权 Simrank 进一部提高了精确率,且未牺牲覆盖率或深度。
  • Yahoo! 编辑团队的人工评估确认,加权 Simrank 生成的重写结果比皮尔逊相关性或标准 SimRank 更具相关性和实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。