Skip to main content
QUICK REVIEW

[论文解读] Knowledge Engineering using Large Language Models

Bradley P. Allen, Lise Stork|arXiv (Cornell University)|Oct 1, 2023
Natural Language Processing Techniques被引用 8
一句话总结

论文探讨大型语言模型如何推动知识工程,提出两条路径:混合神经符号系统和通过提示工程的自然语言驱动知识工程,并指出待解的研究问题。

ABSTRACT

Knowledge engineering is a discipline that focuses on the creation and maintenance of processes that generate and apply knowledge. Traditionally, knowledge engineering approaches have focused on knowledge expressed in formal languages. The emergence of large language models and their capabilities to effectively work with natural language, in its broadest sense, raises questions about the foundations and practice of knowledge engineering. Here, we outline the potential role of LLMs in knowledge engineering, identifying two central directions: 1) creating hybrid neuro-symbolic knowledge systems; and 2) enabling knowledge engineering in natural language. Additionally, we formulate key open research questions to tackle these directions.

研究动机与目标

  • 展示知识如何用自然语言与形式化语言表示,以及为什么大型语言模型对知识工程重要。
  • 提出两条前瞻性路径:将大型语言模型作为知识工程组件,以及通过提示工程实现知识工程。
  • 概述横跨方法学、架构与评估的开放研究问题,聚焦基于大型语言模型的知识工程。
  • 讨论与领域无关的影响,并提供聚焦生物多样性的示例以说明挑战。

提出的方法

  • 描述知识的形式及其如何为知识工程实践提供信息,以上多模态生物多样性为例。
  • 论证大型语言模型使自然语言向形式表示转化成为可能,从而使知识工程任务成为可能。
  • 给出两种情景:将大型语言模型作为混合神经符号系统中的知识工程组件,以及通过自然语言提示工程实现的知识工程。
  • 将知识工程任务映射到 CommonKADS 框架,并讨论扩展以容纳大型语言模型和提示。
  • 确定将大型语言模型整合到知识工程工作流中的设计模式与架构考量。
  • 强调跨方法、架构、数据管理、认知规范与劳动经济学的开放研究问题。
Figure 1 . A specimen of the Loligo vulgaris Lamarck, 1798 species from the Naturalis–Zoology and Geology catalogues. 2 2 2 https://bioportal.naturalis.nl/nl/specimen/RMNH.MOL.5009890 Images free of known restrictions under copyright law (Public Domain Mark 1.0).
Figure 1 . A specimen of the Loligo vulgaris Lamarck, 1798 species from the Naturalis–Zoology and Geology catalogues. 2 2 2 https://bioportal.naturalis.nl/nl/specimen/RMNH.MOL.5009890 Images free of known restrictions under copyright law (Public Domain Mark 1.0).

实验结果

研究问题

  • RQ1在整合大型语言模型的同时,知识工程应采用哪些方法学以保持可靠性与可重复性?
  • RQ2提示工程模式如何支持推理并维持可控、可重复的知识工程过程?
  • RQ3混合神经符号架构应如何在不牺牲可追溯性和可验证性的前提下整合大型语言模型?
  • RQ4为了确保在基于大型语言模型的知识工程中对提示与输出进行公平、可追溯的处理,需要哪些数据管理与溯源实践?
  • RQ5在实践中部署以大型语言模型驱动的知识工程会带来哪些认知规范与劳动经济学影响?

主要发现

  • 大型语言模型提供一种通用工具,可以将自然语言知识翻译为形式化表示及其他模态。
  • 两种基于大型语言模型的知识工程情景是可行的:将其作为知识工程组件,以及将知识工程任务视为自然语言中的提示工程问题。
  • CommonKADS 为将大型语言模型集成到需要知识的任务工作流中提供起点框架,提示用于知识获取、组织与测试。
  • 提示工程有望降低知识工程采用门槛,使领域专家能直接用自然语言贡献。
  • 挑战包括幻觉、偏见、信任,以及在基于大型语言模型的知识工程中对溯源与可重复性的需求。
  • 生物多样性示例展示了多模态知识(图像、文本、分类体系),并强调正式化所需的互操作性、数据标准与领域专业知识。
Figure 2 . Hierarchy of knowledge-intensive task types from CommonKADS ( [ 86 ] , p.125)
Figure 2 . Hierarchy of knowledge-intensive task types from CommonKADS ( [ 86 ] , p.125)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。