[论文解读] Technology Knowledge Graph Based on Patent Data.
本文提出 TechNet,一个基于美国专利数据(1976 年至今)构建的大规模技术知识图谱,利用自然语言处理和词嵌入技术提取并建模技术术语之间的语义关系。该系统支持诸如设计构思和语义搜索等高级工程应用,并可通过 API 和在线界面公开访问。
The growing developments in general semantic networks, knowledge graphs and ontology databases have motivated us to build a large-scale comprehensive semantic network of technology-related data for engineering knowledge discovery, technology search and retrieval, and artificial intelligence for engineering design and innovation. Specially, we constructed a technology semantic network (TechNet) that covers the elemental concepts in all domains of technology and their semantic associations by mining the complete U.S. patent database from 1976. To derive the TechNet, natural language processing techniques were utilized to extract terms from massive patent texts and recent word embedding algorithms were employed to vectorize such terms and establish their semantic relationships. We report and evaluate the TechNet for retrieving terms and their pairwise relevance that is meaningful from a technology and engineering design perspective. The TechNet may serve as an infrastructure to support a wide range of applications, e.g., technical text summaries, search query predictions, relational knowledge discovery, and design ideation support, in the context of engineering and technology, and complement or enrich existing semantic databases. To enable such applications, the TechNet is made public via an online interface and APIs for public users to retrieve technology-related terms and their relevancies.
研究动机与目标
- 构建一个全面的、大规模的技术概念语义网络,覆盖所有工程领域。
- 通过结构化的语义关系,实现先进技术搜索、检索和设计构思。
- 利用专利数据和自然语言处理技术,从真实技术文本中建模有意义的术语相关性。
- 开发一个公开可访问的基础设施,支持人工智能驱动的工程创新。
- 在现有语义数据库的基础上,补充领域特定、以技术为基础的知识。
提出的方法
- 使用自然语言处理技术从完整的美国专利数据库(1976 年至今)中提取术语。
- 应用最新的词嵌入算法,将提取的术语向量化,并建模其语义关系。
- 通过上下文嵌入确定术语之间的成对相关性,构建语义网络(TechNet)。
- 从工程和设计的角度验证术语关系的语义合理性。
- 通过在线界面和 API 部署 TechNet,实现公众访问并支持应用集成。
- 利用知识图谱支持下游任务,如技术文本摘要和查询预测。
实验结果
研究问题
- RQ1如何系统性地从大规模专利数据中构建一个全面的、领域特定的技术概念知识图谱?
- RQ2TechNet 中的语义关系在多大程度上反映了有意义的技术与工程关联?
- RQ3TechNet 是否能有效支持设计构思和语义搜索等实际工程应用?
- RQ4在工程领域,TechNet 与现有通用语义数据库相比或互补之处何在?
- RQ5基于公开专利数据构建的大规模技术知识图谱的可扩展性和可访问性如何?
主要发现
- TechNet 成功地对所有工程领域中的广泛技术概念及其语义关系进行了建模。
- 从词嵌入中推导出的语义关系在工程和设计视角下表现出有意义的相关性。
- 通过公开 API 和在线界面,系统能够有效检索技术相关术语及其成对相关性。
- TechNet 支持多种应用,如技术文本摘要、搜索查询预测和关系知识发现。
- 该知识图谱公开可用,可集成到人工智能驱动的工程设计与创新工具中。
- 该方法在处理从 1976 年至今的完整美国专利数据库方面表现出良好的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。