[论文解读] Simrank++: Query rewriting through link analysis of the click graph
本文提出 Simrank++ 作为一种增强的赞助搜索查询重写框架,通过结合点击图中的边权重和证据得分,对传统 SimRank 进行改进。该方法显著提升了重写质量、覆盖率和深度,加权 Simrank 在 5 个重写结果中达到 86% 的精确率,且顶级重写准确率达到 96%,优于基线方法。
We focus on the problem of query rewriting for sponsored search. We base rewrites on a historical click graph that records the ads that have been clicked on in response to past user queries. Given a query q, we first consider Simrank as a way to identify queries similar to q, i.e., queries whose ads a user may be interested in. We argue that Simrank fails to properly identify query similarities in our application, and we present two enhanced version of Simrank: one that exploits weights on click graph edges and another that exploits ``evidence.'' We experimentally evaluate our new schemes against Simrank, using actual click graphs and queries form Yahoo!, and using a variety of metrics. Our results show that the enhanced methods can yield more and better query rewrites.
研究动机与目标
- 为解决在直接出价稀缺时生成有效查询重写的挑战。
- 通过考虑点击图的结构和定量特征,改进标准 SimRank。
- 通过利用历史点击模式和相似性传播,提升查询重写的数量和质量。
- 使用真实世界 Yahoo! 点击数据和人工评估,评估增强版 SimRank 变体的有效性。
- 开发一种可扩展、数据驱动的查询重写方法,以支持更优的广告定位和收入增长。
提出的方法
- 将 SimRank 扩展至基于双分图点击图(连接查询与广告)建模查询相似性。
- 引入加权 Simrank,将点击图中的边权重纳入考量,以反映点击频率或置信度。
- 提出基于证据的 Simrank,用于量化查询之间间接相似路径的强度。
- 基于点击图中的共同邻居进行迭代相似性计算,包含归一化和收敛性检查。
- 采用子图提取技术,聚焦于相关查询-广告交互以提升可扩展性。
- 将相似性得分与人工评估及精确率/召回率指标结合,用于重写结果的排序与验证。
实验结果
研究问题
- RQ1当查询和广告内容均较简略时,SimRank 是否能有效识别赞助搜索中的有用查询重写?
- RQ2点击图中的边权重如何影响查询相似性得分的质量和可靠性?
- RQ3基于证据的相似性在多大程度上提升了查询重写的覆盖率和相关性?
- RQ4加权 Simrank 与基线方法相比,在精确率、召回率和重写深度方面表现如何?
- RQ5增强版 SimRank 变体是否能比现有技术更准确地预测查询重写候选的吸引力?
主要发现
- 加权 Simrank 在 5 个重写结果中达到 86% 的精确率,显著优于基于证据的 Simrank(80%)和简单 Simrank(75%)。
- 该方法维持了 99% 的查询覆盖率,其中 96% 的查询获得了高质量的顶级重写,优于基于证据的 Simrank(81%)和简单 Simrank(80%)。
- 加权 Simrank 正确预测了 92% 测试查询中最理想的重写,优于基于证据的 Simrank(54%)和简单 Simrank(54%)。
- 超过 85% 的查询通过增强方法获得了五个重写结果,其中基于证据的 Simrank 达到 89%,加权 Simrank 保持了该深度。
- 引入证据得分显著提升了重写质量和深度,而加权 Simrank 进一部提高了精确率,且未牺牲覆盖率或深度。
- Yahoo! 编辑团队的人工评估确认,加权 Simrank 生成的重写结果比皮尔逊相关性或标准 SimRank 更具相关性和实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。