QUICK REVIEW
[论文解读] Concept-based Recommendations for Internet Advertisement
Dmitry I. Ignatov, Sergei O. Kuznetsov|arXiv (Cornell University)|Jun 26, 2009
Recommender Systems and Techniques参考文献 5被引用 29
一句话总结
本文提出了一种基于概念的互联网广告推荐系统,采用形式概念分析(FCA)与关联规则挖掘技术,从数据中识别出可解释的、基于数据的广告主推荐。通过分析竞争对手出价行为,利用形式概念与基于形态学/本体论的元规则,该方法为新广告术语生成高置信度推荐(平均置信度 >0.9),显著提升了推荐的可解释性与准确性,超越了标准数据挖掘方法。
ABSTRACT
The problem of detecting terms that can be interesting to the advertiser is considered. If a company has already bought some advertising terms which describe certain services, it is reasonable to find out the terms bought by competing companies. A part of them can be recommended as future advertising terms to the company. The goal of this work is to propose better interpretable recommendations based on FCA and association rules.
研究动机与目标
- 提升互联网广告术语推荐的可解释性与准确性,超越标准数据挖掘方法。
- 通过在广告主-出价关系上应用形式概念分析(FCA),检测市场领域及相关广告术语。
- 利用基于形态学与本体论的元规则生成稳定、可解释的推荐规则,而不依赖于经验购买数据。
- 通过交叉验证与Google AdWords同义词列表对比,验证基于FCA推荐的有效性。
提出的方法
- 将美国Overture广告数据转换为形式上下文(G, M, I),其中G = 广告主,M = 出价术语,I = 购买关系。
- 应用D-miner算法提取形式概念(市场领域),并施加对扩展集与意图集大小的约束,识别出显著的市场细分。
- 使用Coron系统从上下文中挖掘关联规则,设定最小支持度(min supp = 1%)与置信度(min conf = 90%)阈值。
- 基于语言学模式开发基于形态学的元规则(如 t_F_T → S_i t_i),在无数据情况下推断合理的术语推荐。
- 利用主题目录构建基于本体论的元规则,并与Google AdWords同义词输出进行验证。
- 通过10折交叉验证验证规则,测量测试集置信度以评估泛化能力与稳定性。
实验结果
研究问题
- RQ1能否从广告主-出价关系中提取的形式概念有效识别出可解释的市场领域用于推荐?
- RQ2形态学分析如何生成高置信度、无数据依赖的元规则以推荐新广告术语?
- RQ3基于本体论的元规则在多大程度上与现实世界中的同义词系统(如Google AdWords)一致?
- RQ4在未见测试数据上验证时,基于FCA的关联规则的平均置信度与支持度是多少?
主要发现
- 测试集上关联规则的平均置信度为0.87,与最小置信度阈值0.9非常接近,表明泛化能力出色。
- 对于置信度≥0.5的规则,10次交叉验证折叠中的平均置信度为0.92,证明了高度可靠性。
- 最置信且支持度最高的元规则形式为 t_F_T → S_i t_i,平均置信度0.69,支持度20(当最小支持度设为0.5时)。
- 90%的基于本体论的元规则生成的推荐在Google AdWords同义词列表中被找到,验证了其现实相关性。
- 基于形态学的元规则在 t_F_T → t_i such that t_IT_S_i ⊆ t_IT_S_group 类型中,平均置信度为0.70,支持度为21,表明强大的预测能力。
- 该方法成功识别出参与企业超过20家的大型市场领域,展示了可扩展性与市场细分能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。