[논문 리뷰] LLMs4OL: Large Language Models for Ontology Learning
본 논문은 LLMs4OL을 제안하고, 다양한 도메인에서 세 가지 온톨로지 학습 작업에 대해 여러 LLM 계열을 평가합니다. 기초 LLM은 복잡한 OL 작업에 어려움을 겪지만, 미세 조정은 온톨로지 구성에 유용한 보조 도구로 만들 수 있습니다.
We propose the LLMs4OL approach, which utilizes Large Language Models (LLMs) for Ontology Learning (OL). LLMs have shown significant advancements in natural language processing, demonstrating their ability to capture complex language patterns in different knowledge domains. Our LLMs4OL paradigm investigates the following hypothesis: extit{Can LLMs effectively apply their language pattern capturing capability to OL, which involves automatically extracting and structuring knowledge from natural language text?} To test this hypothesis, we conduct a comprehensive evaluation using the zero-shot prompting method. We evaluate nine different LLM model families for three main OL tasks: term typing, taxonomy discovery, and extraction of non-taxonomic relations. Additionally, the evaluations encompass diverse genres of ontological knowledge, including lexicosemantic knowledge in WordNet, geographical knowledge in GeoNames, and medical knowledge in UMLS.
연구 동기 및 목표
- 텍스트로부터의 자동 온톨로지 학습을 위한 LLMs4OL 패러다임을 동기부여하고 정의한다.
- 아홉 가지 모델 계열(및 생물의학 모델)이 제로샷 및 미세 조정 설정에서 OL 작업을 수행할 수 있는지 평가한다.
- 어휘의미적, 지리적, 생물의학적, schema.org 등 다양한 온톨로지 도메인에서 모델을 경험적으로 비교한다.
- LLM이 온톨로지 구성에서 효과적인 보조 도구가 되기 위해 미세 조정이 필요한지 조사한다.
제안 방법
- OL 기본 요소를 정의한다: 어휘 항목 L, 개념 유형 T, 분류체 H_T, 비계통적 관계 R, 그리고 공리 A.
- 세 가지 OL 작업을 프롬프트로 공식화한다: Term Typing (A), Taxonomy Discovery (B), Non-Taxonomic Relation Extraction (C).
- 제로샷 출력을 유도하기 위해 각 작업당 여덟 개의 cloze 프롬프트 템플릿과 각 작업에 대응하는 여덟 개의 접두사 프롬프트를 개발한다.
- 다수의 온톨로지 소스(WordNet, GeoNames, UMLS 하위 온톨로지, schema.org)에서 인코더, 디코더, 인코더-디코더 계열에 걸쳐 열에서 열한 LLM을 평가한다.
- 작업 A에는 MAP@1을, 작업 B와 C에는 F1을 평가 지표로 사용한다; 제로샷과 미세 조정 성능을 비교한다.
- 미세 조정 워크플로우 그림을 제공하고 코드, 프롬프트, 데이터 세트를 공개한다.

실험 결과
연구 질문
- RQ1RQ1: 자동 용어 타이핑이 온톨로지 구성에 얼마나 효과적인가?
- RQ2RQ2: 타입 간의 계통학(상하 관계)을 인식하는 데 LLM이 얼마나 효과적인가?
- RQ3RQ3: 타입 간의 비계통적 관계 발견에서 LLM이 얼마나 효과적인가?
주요 결과
- 제로샷 결과는 도메인과 모델에 따라 매우 다른 성능을 보이며; WordNet 타이핑은 GPT-3.5에서 최대 91.7% MAP@1에 도달하지만 GeoNames 타이핑은 약 39.4%(GPT-4) 정도이고 다른 도메인은 대개 더 낮다.
- 계통학 발견의 경우, GPT-4가 UMLS에서 최대 78.1%를 달성하고, 오픈 소스 모델 중 Flan-T5-XL이 64.3%에 도달하며; schema.org도 주목할 만한 결과를 보인다(GPT-3 계열로 최대 약 74.4%).
- UMLS에서 비계통적 관계 추출은 7,537 쌍의 타입에서 제로샷 설정으로 Flan-T5-XL이 최대 49.5%까지 도달한다.
- 작업 전반에 걸쳐 일반적으로 더 큰 매개변수 수가 성능을 향상시키는 경향이 있다(예: GPT-4, GPT-3.5, Flan-T5-XL, BLOOM-3b가 더 작은 변형보다 우수한 경향).
- 기초 LLM은 상당한 추론 및 도메인 전문 지식이 필요한 고품질 OL에 아직 충분하지 않다; 미세 조정은 온톨로지 구성에서 지식 확보 병목을 완화하는 유용한 보조 도구로 만들 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.