QUICK REVIEW

[論文レビュー] Enhancing Knowledge Graph Construction Using Large Language Models

Milena Trajanoska, Riste Stojanov|arXiv (Cornell University)|May 8, 2023

Topic Modeling被引用数 35

ひとこと要約

この論文は、持続可能性関連テキストからの自動知識グラフ構築において REBEL と ChatGPT を比較し、洗練されたプロンプトを用いた ChatGPT がより高品質なオントロジーとインスタンスを生成できることを示す。 foundation LLMs を用いた自動オントロジー生成が KG の関連性を高めることも実証する。

ABSTRACT

The growing trend of Large Language Models (LLM) development has attracted significant attention, with models for various applications emerging consistently. However, the combined application of Large Language Models with semantic technologies for reasoning and inference is still a challenging task. This paper analyzes how the current advances in foundational LLM, like ChatGPT, can be compared with the specialized pretrained models, like REBEL, for joint entity and relation extraction. To evaluate this approach, we conducted several experiments using sustainability-related text as our use case. We created pipelines for the automatic creation of Knowledge Graphs from raw texts, and our findings indicate that using advanced LLM models can improve the accuracy of the process of creating these graphs from unstructured text. Furthermore, we explored the potential of automatic ontology creation using foundation LLM models, which resulted in even more relevant and accurate knowledge graphs.

研究の動機と目的

基盤となるLLMが、専用の事前学習モデルと結合されたエンティティ抽出と関連抽出の性能を比較する方法を調査する。
未構造化ウェブテキストから知識グラフを作成するエンドツーエンドのパイプラインを持続可能性のユースケースで評価する。
プロンプト戦略がオントロジー創出を促し、KG の品質を改善できるかを評価する。
テキストからのエンティティリンクとオントロジー整合性が、実用的な KG の生成に如何に寄与するかを検討する。

提案手法

REBEL を用いて74記事の持続可能性ニュース記事からエンドツーエンドの関係抽出を実施し、512トークン制限のため256トークン塊でバッチ化する。
ChatGPT を2つの実験で用いる。 (i) 関係を抽出しポスト処理とエンティティリンクを組み込んで KG を構築する。 (ii) OWL オントロジーと RDF Turtle 形式のインスタンスを生成するよう、反復的にプロンプトを用いてオントロジー生成を行う。
DBpedia ベースのエンティティリンクを適用してエンティティを正規化する。
それぞれの方法で生成された三つ組、エンティティ、関係を比較して出力を評価する。
18 原則の枠組みを用いて KG の品質を定性的に評価する。

Figure 1: Subset of the Knowledge Base generated using the REBEL model. The Knowledge Base is displayed in a graph format where entities are represented as nodes and relations are represented as edges.

実験結果

リサーチクエスチョン

RQ1基盤となるLLM（例：ChatGPT）は、未構造化テキストからの自動関係抽出とKG 作成において、専用の RE モデルである REBEL を上回ることができるか。
RQ2ChatGPT にオントロジーの生成を促すことで、生成される知識グラフの実用性や一貫性が改善されるか。
RQ3持続可能性分野におけるエンティティリンクとオントロジー生成が KG の品質に与える影響は何か。

主な発見

アルゴリズム	エンティティ	関係	トリプル
REBEL	805	105	854
ChatGPT	1158	677	826

REBEL は同じコーパスから 805 のエンティティ、105 の関係、854 のトリプルを抽出したのに対し、ChatGPT は 1158 のエンティティ、677 の関係、826 のトリプルを抽出した。
ChatGPT はより多くのエンティティを生成するが、多くが語句として現れ、抽象概念としてのエンティティ化が少ないため、プロンプトを洗練させないとオントロジーの実用性が低くなる。
オントロジーとインスタンスを明示的に生成する2 番目の ChatGPT アプローチは、概念とインスタンスの関係がより明確な高品質な KG を生み出す。
オントロジーベースの出力は、組織、実践、政策を結びつけ、より複雑な持続可能性クエリを可能にする。
提案された18原則の枠組みの下で、KG の品質に関して2番目の ChatGPT アプローチが有利であると定性的評価された。

Figure 2: Subset of the Knowledge Base generated using the first experiment with ChatGPT. The Knowledge Base is displayed in a graph format where entities are represented as nodes and relations are represented as edges.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。