[论文解读] Multiple Retrieval Models and Regression Models for Prior Art Search
本论文提出 PATATRAS,一种多语言专利现有技术检索系统,结合多种检索模型(KL、Okapi)与术语索引(词干、短语、概念),覆盖英语、法语和德语。该系统采用基于回归的结果融合方法,并利用元数据和引用结构改进排序,在 CLEF 2009 专利检索赛道上实现了最先进性能,多语言任务的 MAP 达到 0.2802。
This paper presents the system called PATATRAS (PATent and Article Tracking, Retrieval and AnalysiS) realized for the IP track of CLEF 2009. Our approach presents three main characteristics: 1. The usage of multiple retrieval models (KL, Okapi) and term index definitions (lemma, phrase, concept) for the three languages considered in the present track (English, French, German) producing ten different sets of ranked results. 2. The merging of the different results based on multiple regression models using an additional validation set created from the patent collection. 3. The exploitation of patent metadata and of the citation structures for creating restricted initial working sets of patents and for producing a final re-ranking regression model. As we exploit specific metadata of the patent documents and the citation relations only at the creation of initial working sets and during the final post ranking step, our architecture remains generic and easy to extend.
研究动机与目标
- 开发一种可扩展、通用的框架,用于多语言技术与科学文献(尤其是专利)中的现有技术检索。
- 通过在英语、法语和德语中结合多种检索模型与索引策略,提升检索性能。
- 利用专利元数据和引用结构,在不损害系统通用性的前提下,用于初始工作集构建与最终重排序。
- 评估基于机器学习的结果融合方法的有效性,使用从专利集合中派生的验证集进行测试。
- 解决信息检索中专利语言存在噪声、模糊且多语言的挑战。
提出的方法
- 采用十种不同的检索配置,结合 KL 和 Okapi 模型,使用词干、短语和概念索引,覆盖三种语言。
- 利用在约 4,000 项专利上手工整理的验证集训练的多个回归模型,对多种模型的结果进行融合。
- 利用专利元数据(如 IPC/ECLA 分类)和引用结构,为每个主题创建受限的初始工作集。
- 应用最终的基于回归的重排序模型,整合基于引用的特征与元数据,以优化顶部结果。
- 从 Wikipedia XML 文件构建术语数据库,随后进行分词、词性标注、短语提取与受控概念索引。
- 采用四台 64 位 Mac OS 机器的架构处理 190 万项专利集合,训练与聚合流程针对离线处理进行了优化。
实验结果
研究问题
- RQ1结合多种检索模型与索引策略是否能提升多语言专利集合中的现有技术检索性能?
- RQ2在基于专利语料派生的验证集上进行训练时,基于回归的排序结果融合方法有多有效?
- RQ3在初始工作集选择与最终重排序中,专利元数据与引用结构在多大程度上提升了检索效果?
- RQ4与单语方法相比,集成多语言术语索引(词干、短语、概念)是否带来更好的性能?
- RQ5能否设计一种通用架构,以最小的重新配置支持专利与非专利技术文献?
主要发现
- 多语言系统取得了 0.2802 的 MAP,显著优于所有单语言运行结果,证明了跨语言融合的有效性。
- 仅使用英语的检索取得了最高的单体性能(MAP 0.2358),反映出英语在专利说明书中占主导地位。
- 通过融合三种语言的组合产生了最佳整体结果,证实了多语言索引的价值。
- 基于回归的结果融合通过有效整合多样化的检索信号并减少噪声,提升了检索性能。
- 在初始工作集构建与最终重排序中使用引用结构与元数据,提升了顶部结果的精确度。
- 系统总处理时间约为每主题 43 秒,尽管该时间未针对在线使用进行优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。