[논문 리뷰] Technology Knowledge Graph Based on Patent Data.
이 논문은 자연어 처리 및 단어 임베딩을 사용하여 1976년부터 현재까지의 미국 특허 데이터에서 추출한 기술적 용어 간의 의미 관계를 모델링한 대규모 기술 지식 그래프인 TechNet을 제안한다. 이 시스템은 설계 아이디어 도출 및 의미 기반 검색과 같은 고급 공학 응용을 가능하게 하며, API와 온라인 인터페이스를 통해 공개적으로 접근할 수 있다.
The growing developments in general semantic networks, knowledge graphs and ontology databases have motivated us to build a large-scale comprehensive semantic network of technology-related data for engineering knowledge discovery, technology search and retrieval, and artificial intelligence for engineering design and innovation. Specially, we constructed a technology semantic network (TechNet) that covers the elemental concepts in all domains of technology and their semantic associations by mining the complete U.S. patent database from 1976. To derive the TechNet, natural language processing techniques were utilized to extract terms from massive patent texts and recent word embedding algorithms were employed to vectorize such terms and establish their semantic relationships. We report and evaluate the TechNet for retrieving terms and their pairwise relevance that is meaningful from a technology and engineering design perspective. The TechNet may serve as an infrastructure to support a wide range of applications, e.g., technical text summaries, search query predictions, relational knowledge discovery, and design ideation support, in the context of engineering and technology, and complement or enrich existing semantic databases. To enable such applications, the TechNet is made public via an online interface and APIs for public users to retrieve technology-related terms and their relevancies.
연구 동기 및 목표
- 모든 공학 분야에 걸쳐 기술 개념의 포괄적이고 대규모의 의미 네트워크를 구축하기 위해.
- 구조화된 의미 관계를 통해 고급 기술 검색, 검색 및 설계 아이디어 도출을 가능하게 하기 위해.
- 실제 기술 텍스트에서의 의미 있는 용어 유사성 관계를 모델링하기 위해 특허 데이터와 자연어 처리를 활용하기 위해.
- AI 기반 공학 혁신을 지원하는 공개 접근 가능한 인프라를 개발하기 위해.
- 분야 전문적이고 기술 기반의 지식을 기존 의미 기반 데이터베이스에 보완하기 위해.
제안 방법
- 자연어 처리 기법을 사용하여 전체 미국 특허 데이터베이스(1976–현재)에서 용어를 추출하였다.
- 최근의 단어 임베딩 알고리즘을 적용하여 추출된 용어를 벡터화하고 의미 관계를 모델링하였다.
- 맥락 기반 임베딩을 바탕으로 기술 용어 간의 쌍별 유사성 관계를 설정하여 의미 네트워크(TechNet)를 구축하였다.
- 공학적 및 설계 관점에서 용어 간 의미 관계의 타당성을 검증하였다.
- 공개 접근 및 애플리케이션 통합을 위해 TechNet을 온라인 인터페이스와 API를 통해 배포하였다.
- 기술 텍스트 요약 및 쿼리 예측과 같은 후행 작업을 지원하기 위해 지식 그래프를 활용하였다.
실험 결과
연구 질문
- RQ1대규모 특허 데이터에서 체계적으로 분야 전용 기술 개념 지식 그래프를 어떻게 구축할 수 있는가?
- RQ2TechNet의 의미 관계가 얼마나 의미 있는 기술적 및 공학적 연관성을 반영하고 있는가?
- RQ3TechNet은 설계 아이디어 도출 및 의미 기반 검색과 같은 실용적 공학 응용을 효과적으로 지원할 수 있는가?
- RQ4TechNet은 공학 분야에서 기존의 일반 목적의 의미 기반 데이터베이스와 어떻게 비교되거나 보완되는가?
- RQ5공개 특허 데이터에서 구축한 대규모 기술 지식 그래프의 확장성과 접근 가능성은 어떠한가?
주요 결과
- TechNet은 모든 공학 분야에 걸쳐 다양한 기술 개념과 그 의미 관계를 성공적으로 모델링하였다.
- 단어 임베딩에서 유도된 의미 관계는 공학적 및 설계 관점에서 의미 있는 관련성을 보였다.
- 공개 API와 온라인 인터페이스를 통해 기술 관련 용어와 쌍별 유사성 관계의 효과적인 검색을 가능하게 하였다.
- 기술 텍스트 요약, 검색 쿼리 예측, 관계 기반 지식 탐색과 같은 다양한 응용을 지원하였다.
- 지식 그래프가 공개되어 있어 AI 기반 공학 설계 및 혁신 도구에 통합될 수 있었다.
- 1976년부터 현재까지 전체 미국 특허 데이터베이스를 처리하는 데 있어 이 접근 방식이 확장 가능함을 입증하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.