[论文解读] LLMs4OL: Large Language Models for Ontology Learning
本文提出 LLMs4OL,评估多种大型语言模型家族在跨域的三项本体学习任务上的表现;基础的 LLM 在复杂的 OL 任务中表现吃力,但通过微调可以使它们成为在本体构建中有帮助的助手。
We propose the LLMs4OL approach, which utilizes Large Language Models (LLMs) for Ontology Learning (OL). LLMs have shown significant advancements in natural language processing, demonstrating their ability to capture complex language patterns in different knowledge domains. Our LLMs4OL paradigm investigates the following hypothesis: extit{Can LLMs effectively apply their language pattern capturing capability to OL, which involves automatically extracting and structuring knowledge from natural language text?} To test this hypothesis, we conduct a comprehensive evaluation using the zero-shot prompting method. We evaluate nine different LLM model families for three main OL tasks: term typing, taxonomy discovery, and extraction of non-taxonomic relations. Additionally, the evaluations encompass diverse genres of ontological knowledge, including lexicosemantic knowledge in WordNet, geographical knowledge in GeoNames, and medical knowledge in UMLS.
研究动机与目标
- 为基于文本的自动本体学习动机并定义 LLMs4OL 范式。
- 评估九种模型家族(以及一个生物医药模型)在零-shot 与微调设置下是否能够执行 OL 任务。
- 在多样的本体领域(词汇语义、地理、生物医学和 schema.org)对模型进行经验性比较。
- 探究 LLM 是否需要微调才能在本体构建中成为有效的助手。
提出的方法
- 定义 OL 基元:词汇条目 L、概念类型 T、分类法 H_T、非分类关系 R 与公理 A。
- 将三个 OL 任务设定为提示:Term Typing (A)、Taxonomy Discovery (B)、Non-Taxonomic Relation Extraction (C)。
- 为每个任务开发八个填空式提示模板及相应的八个前缀提示以诱导零-shot 输出。
- 在多个本体源(WordNet、GeoNames、UMLS 子本体、schema.org)上评估十到十一种 LLMs(覆盖编码器、解码器和编码-解码器家族)。
- 以 MAP@1 作为任务 A 的评估指标,F1 作为任务 B 和 C 的评估指标;比较零-shot 与微调的表现。
- 提供微调工作流示意并公开发布代码、提示和数据集。

实验结果
研究问题
- RQ1RQ1:自动术语类型化在构建本体方面,LLMs 的效果如何?
- RQ2RQ2:LLMs 在识别类型之间的类型分类法(is-a 层级)方面有多有效?
- RQ3RQ3:LLMs 在发现类型之间的非分类关系方面有多有效?
主要发现
- 零-shot 结果在不同领域和模型间表现差异很大;WordNet 的类型化在 GPT-3.5 下可达最高 91.7% 的 MAP@1,然而 GeoNames 的类型化在 GPT-4 约为 39.4%,其他领域通常更低。
- 在分类法发现方面,GPT-4 在 UMLS 上最高达 78.1%,开源模型中 Flan-T5-XL 达到 64.3%;schema.org 也显示显著结果(GPT-3 系列最高约 74.4%)。
- 在 UMLS 的非分类关系提取,在零-shot 设置中,Flan-T5-XL 针对 7,537 对类型达到最高 49.5%。
- 在各任务中,较大参数量通常提升性能(例如,GPT-4、GPT-3.5、Flan-T5-XL、BLOOM-3b 往往优于较小的变体)。
- 基础的 LLM 仍不足以完成高质量的 OL,因其需要显著的推理和领域专长;微调可以使它们成为有用的助手,缓解本体构建中的知识获取瓶颈。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。