[論文レビュー] LLMs4OL: Large Language Models for Ontology Learning
本論文は LLMs4OL を提案し、複数の LLM ファミリーを三つの ontology learning タスクで多様な領域にわたって評価する。基盤となる LLM は複雑な OL タスクに苦戦するが、ファインチューニングにより ontology 構築の有用なアシスタントになり得る。
We propose the LLMs4OL approach, which utilizes Large Language Models (LLMs) for Ontology Learning (OL). LLMs have shown significant advancements in natural language processing, demonstrating their ability to capture complex language patterns in different knowledge domains. Our LLMs4OL paradigm investigates the following hypothesis: \textit{Can LLMs effectively apply their language pattern capturing capability to OL, which involves automatically extracting and structuring knowledge from natural language text?} To test this hypothesis, we conduct a comprehensive evaluation using the zero-shot prompting method. We evaluate nine different LLM model families for three main OL tasks: term typing, taxonomy discovery, and extraction of non-taxonomic relations. Additionally, the evaluations encompass diverse genres of ontological knowledge, including lexicosemantic knowledge in WordNet, geographical knowledge in GeoNames, and medical knowledge in UMLS.
研究の動機と目的
- テキストからの自動的なオントロジー学習のための LLMs4OL パラダイムを動機づけ、定義する。
- 九つのモデルファミリー(および生物医学モデル)がゼロショットおよびファインチューニング設定で OL タスクを実行できるかを評価する。
- 語彙意味論的、地理的、生物医学的、schema.org などの多様なオントロジー領域でモデルを経験的に比較する。
- オントロジー構築において有効なアシスタントとなるために LLMs がファインチューニングを必要とするかを検討する。
提案手法
- OL primitives を定義する: lexical entries L、conceptual types T、taxonomy H_T、non-taxonomic relations R、および axioms A。
- 3つの OL タスクをプロンプトとして定式化する: Term Typing (A)、Taxonomy Discovery (B)、Non-Taxonomic Relation Extraction (C)。
- ゼロショット出力を誘導するために、各タスクにつき eight の Cloze prompt templates と corresponding eight の prefix prompts を各タスクについて開発する。
- 複数のオントロジーソース (WordNet、GeoNames、UMLS subontologies、schema.org) で、 encoder、decoder、and encoder-decoder ファミリの10〜11個の LLM を評価する。
- 評価指標として Task A には MAP@1、Task B および Task C には F1 を用い、ゼロショットとファインチューニングの性能を比較する。
- ファインチューニングのワークフロー図を提供し、コード、プロンプト、データセットを公開する。

実験結果
リサーチクエスチョン
- RQ1RQ1: オントロジーを構築するための自動用語型付けにおいて、LLMs はどの程度有効か?
- RQ2RQ2: 種類間の type taxonomy(is-a 階層)を認識する LLMS はどの程度有効か?
- RQ3RQ3: 種類間の非分類的関係を発見する LLMs はどの程度有効か?
主な発見
- ゼロショットの結果は、ドメインとモデル間で大きく性能が異なることを示す。WordNet の用語型付けは GPT-3.5 で最大 91.7% MAP@1 に達するが、GeoNames の用語型付けは約 39.4%(GPT-4)でピークを迎え、他のドメインはしばしば低くなる。
- 分類法発見には、GPT-4 が UMLS で最大 78.1%、オープンソースモデルの中では Flan-T5-XL が 64.3% に達する;schema.org も顕著な結果を示し(GPT-3 ファミリで最大約 74.4% など)。
- UMLS における非分類的関係抽出は、ゼロショット設定で Flan-T5-XL により 49.5% まで達し、7,537 の type pairs に跨る。
- タスクを跨いで、パラメータ数が大きいほど一般に性能が向上する(例: GPT-4、GPT-3.5、Flan-T5-XL、BLOOM-3b は小型 Variant よりも優れている傾向)。
- 基礎的な LLM は、 significant reasoning とドメイン知識を要する高品質の OL にはまだ十分でないが、ファインチューニングにより、それらをオントロジー構築における知識獲得のボトルネックを緩和する有用なアシスタントにできる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。