[論文レビュー] LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities
本論文は 8 dataset にわたり、KG 構築と推論を GPT-3.5/ChatGPT/GPT-4 で評価し、VINE データセットを用いた Virtual Knowledge Extraction タスクを導入し、マルチエージェント LLM による自動 KG 構築・推論を提案します。
This paper presents an exhaustive quantitative and qualitative evaluation of Large Language Models (LLMs) for Knowledge Graph (KG) construction and reasoning. We engage in experiments across eight diverse datasets, focusing on four representative tasks encompassing entity and relation extraction, event extraction, link prediction, and question-answering, thereby thoroughly exploring LLMs' performance in the domain of construction and inference. Empirically, our findings suggest that LLMs, represented by GPT-4, are more suited as inference assistants rather than few-shot information extractors. Specifically, while GPT-4 exhibits good performance in tasks related to KG construction, it excels further in reasoning tasks, surpassing fine-tuned models in certain cases. Moreover, our investigation extends to the potential generalization ability of LLMs for information extraction, leading to the proposition of a Virtual Knowledge Extraction task and the development of the corresponding VINE dataset. Based on these empirical findings, we further propose AutoKG, a multi-agent-based approach employing LLMs and external sources for KG construction and reasoning. We anticipate that this research can provide invaluable insights for future undertakings in the field of knowledge graphs. The code and datasets are in https://github.com/zjunlp/AutoKG.
研究の動機と目的
- KG 構築タスク(NER、RE、EE、EL)および KG 推論(LP)と QA に対する LLM の zero-shot および one-shot パフォーマンスを評価する。
- Virtual Knowledge Extraction および VINE データセットを通じて情報抽出の一般化能力を調査する。
- 自動KG構築・推論のためのマルチエージェント LL M フレームワークである AutoKG を提案する。
- LLM を KG ワークフローに活用するための洞察と今後の方向性を提供する。
提案手法
- _ENTITY、RELATION、EVENT 抽出、リンク予測、QA を含む 8 つの KG 関連タスクと 8 つのデータセットを調査する。
- GPT-4、ChatGPT、text-davinci-003 の zero-shot および one-shot の性能を SOTA ベースラインと比較する。
- unseen なエンティティと関係で仮想知識抽出をテストするために VINE データセットを作成する。
- AutoKG を開発し、LLM が協調的に反復して KG を構築・推論するマルチエージェント・フレームワークを構築する。
実験結果
リサーチクエスチョン
- RQ1LLM(GPT-4、ChatGPT)は zero-shot および one-shot 設定で KG 構築および推論タスクに対して SOTA あるいはほぼ SOTA の性能を達成できるか。
- RQ2LLMs は仮想知識タスクを介した情報抽出において強い一般化能力と指示駆動学習を示すか。
- RQ3マルチエージェント LLM フレームワーク(AutoKG)は効果的に KG 構築と推論を自動化できるか。
- RQ4データセット品質、プロンプト、評価方法など、ドメインを横断した KG タスクで LLM の性能に影響を与える要因は何か。
- RQ5LLM は知識を memorized するのか、それとも指示に従って未見の知識へ一般化するのか。
主な発見
- GPT-4 は概して KG 構築タスクで ChatGPT を上回り、推論および QA の一部データセットでファインチューニングされたモデルをも凌ぐことがある。
- LLM は KG 推論と QA において KG 構築よりも高い性能を示す傾向が強く、zero-shot または one-shot 設定で推論において SOTA 近似に達することがある。
- 新規の Virtual Knowledge Extraction タスクと VINE データセットにより、GPT-4 が指示を経て unseen な仮想知識へ一般化できる能力を示した。
- GPT-4 は unseen なエンティティと関係を含む仮想トリプルを高精度で抽出でき、指示駆動の一般化能力が高いことを示している。
- one-shot プロンプトは一部の結果を改善するが、タスクとモデルによって効果は異なり、ドメイン固有データでは効果が小さい場合がある。
- AutoKG はマルチエージェントで対話ベースのアプローチが KG の構築と推論に有効であることを示し、今後の自動化の可能性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。