QUICK REVIEW

[논문 리뷰] Enhancing Knowledge Graph Construction Using Large Language Models

Milena Trajanoska, Riste Stojanov|arXiv (Cornell University)|2023. 05. 08.

Topic Modeling인용 수 35

한 줄 요약

본 논문은 REBEL과 ChatGPT를 지속가능성 관련 텍스트로부터 자동 지식 그래프(KG) 구성에 대해 비교하고, 정교화된 프롬프트를 가진 ChatGPT가 더 높은 품질의 온톨로지와 인스턴스를 생성할 수 있음을 보여준다. 또한 기초 LLM을 이용한 자동 온톨로지 생성을 통해 KG의 관련성이 향상된다는 것을 보여준다.

ABSTRACT

The growing trend of Large Language Models (LLM) development has attracted significant attention, with models for various applications emerging consistently. However, the combined application of Large Language Models with semantic technologies for reasoning and inference is still a challenging task. This paper analyzes how the current advances in foundational LLM, like ChatGPT, can be compared with the specialized pretrained models, like REBEL, for joint entity and relation extraction. To evaluate this approach, we conducted several experiments using sustainability-related text as our use case. We created pipelines for the automatic creation of Knowledge Graphs from raw texts, and our findings indicate that using advanced LLM models can improve the accuracy of the process of creating these graphs from unstructured text. Furthermore, we explored the potential of automatic ontology creation using foundation LLM models, which resulted in even more relevant and accurate knowledge graphs.

연구 동기 및 목표

기초 LLM이 공동 엔티티 및 관계 추출에서 특화된 사전학습 모델과 어떻게 비교되는지 조사한다.
지속가능성 사례에서 비구조화된 웹 텍스트로부터 지식 그래프를 생성하는 엔드투엔드 파이프라인을 평가한다.
프롬프트 전략이 온톨로지 생성을 유도하고 KG 품질을 향상시키는지 평가한다.
텍스트에서 사용할 수 있는 KG를 생성하는 데 있어 엔티티 연결과 온톨로지 정렬의 역할을 탐구한다.

제안 방법

REBEL을 사용하여 94건의 지속가능성 뉴스 기사에서 엔드투엔드 관계 추출을 수행하고, 512 토큰 한계 때문에 256토큰 청크로 배치한다.
ChatGPT를 두 가지 실험에 사용: (i) 관계를 추출하고 후처리 및 엔티티 연결로 KG를 구축; (ii) OWL 온톨로지와 인스턴스를 RDF Turtle 형식으로 생성하도록 점진적으로 프롬프트를 설계한다.
항목을 표준화하기 위해 DBpedia 기반 엔티티 연결을 적용한다.
각 방법이 생성한 트리플, 엔티티 및 관계를 평가하기 위해 출력물을 비교한다.
지식 그래프 품질에 대한 18원칙 프레임워크를 사용하여 KG 품질을 질적으로 평가한다.

Figure 1: Subset of the Knowledge Base generated using the REBEL model. The Knowledge Base is displayed in a graph format where entities are represented as nodes and relations are represented as edges.

실험 결과

연구 질문

RQ1기초 LLM들(예: ChatGPT)이 비구조화된 텍스트에서의 자동 관계 추출 및 KG 생성에서 REBEL과 같은 특화된 RE 모델을 능가할 수 있는가?
RQ2ChatGPT에 온톨로지를 생성하도록 프롬프트를 주는 것이 결과 KG의 활용성 및 일관성을 향상시키는가?
RQ3지속가능성 도메인에서 엔티티 연결 및 온톨로지 생성이 KG 품질에 미치는 영향은 무엇인가?

주요 결과

알고리즘	엔티티	관계	트리플
REBEL	805	105	854
ChatGPT	1158	677	826

REBEL은 같은 말뭉치에서 805 엔티티, 105 관계, 854 트리플을 추출했고, ChatGPT는 1158 엔티티, 677 관계, 826 트리플을 추출했다.
ChatGPT는 더 많은 엔티티를 생성하지만 다수의 구문을 포함하고 추상적 개념보다는 구문이 많아 프롬프트 정제가 없으면 온톨로지가 덜 사용 가능하다.
온톨로지와 인스턴스를 명시적으로 생성하는 두 번째 ChatGPT 방식이 더 높은 품질의 KG를 산출하며, 개념-인스턴스 관계가 더 명확하다.
온톨로지 기반 출력은 조직, 관행, 정책을 연결할 수 있어 더 복잡한 지속가능성 쿼리를 가능하게 한다.
제안된 18원칙 프레임워크에 따라 KG 품질에 대해 두 번째 ChatGPT 접근 방식이 질적 평가에서 우수했다.

Figure 2: Subset of the Knowledge Base generated using the first experiment with ChatGPT. The Knowledge Base is displayed in a graph format where entities are represented as nodes and relations are represented as edges.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.