[논문 리뷰] KnowledGPT: Enhancing Large Language Models with Retrieval and Storage Access on Knowledge Bases
KnowledGPT는 LLM과 지식 베이스를 연결하여 지식을 검색하고 저장하며, 사고의 흐름 프롬프트와 개인화된 지식 베이스를 활용해 복합 질의를 향상시킵니다.
Large language models (LLMs) have demonstrated impressive impact in the field of natural language processing, but they still struggle with several issues regarding, such as completeness, timeliness, faithfulness and adaptability. While recent efforts have focuses on connecting LLMs with external knowledge sources, the integration of knowledge bases (KBs) remains understudied and faces several challenges. In this paper, we introduce KnowledGPT, a comprehensive framework to bridge LLMs with various knowledge bases, facilitating both the retrieval and storage of knowledge. The retrieval process employs the program of thought prompting, which generates search language for KBs in code format with pre-defined functions for KB operations. Besides retrieval, KnowledGPT offers the capability to store knowledge in a personalized KB, catering to individual user demands. With extensive experiments, we show that by integrating LLMs with KBs, KnowledGPT properly answers a broader range of questions requiring world knowledge compared with vanilla LLMs, utilizing both knowledge existing in widely-known KBs and extracted into personalized KBs.
연구 동기 및 목표
- 완전성, 시기성, 신뢰성, 적응성을 다루기 위해 LLM과 외부 지식 원천 간의 연결을 촉진한다.
- KB에서 지식을 검색하고 사용자 특화 지식을 개인화된 PKB에 저장하는 통합 프레임워크를 도입한다.
- 코드 생성된 KB 작동을 통해 다중 홉 검색 및 엔티티 중의성 해소를 가능하게 한다.
- LLMs를 재훈련하지 않고 공공 KB와 PKB 간의 KB 통합의 실용성과 효과를 시연한다.
제안 방법
- KB 접근과 작동을 이끄는 파이썬 코드를 생성하기 위해 사고의 흐름 프롬프트를 사용한다.
- get_entity_info, find_entity_or_value, find_relationship에 대한 내장 및 KB 특화 함수가 있는 단일 KB 접근자 인터페이스를 제공한다.
- 별칭과 유사도 측정을 통해 자연어 언급을 KB 엔티티에 매핑하는 엔티티 연결 모듈을 구현한다.
- KB별로 생성된 코드를 병렬로 실행하고 결과를 연결해 사용자 질의에 답한다.
- 사용자 문서에서 추출된 엔티티 설명, 삼중항 및 엔티티-측면 정보를 저장하는 개인화된 PKB를 도입한다.
- 지식을 세 가지 형태(엔티티 설명, 관계 삼중항, 엔티티-측면 정보)로 표현하여 PKB 커버리지를 확장한다.
실험 결과
연구 질문
- RQ1복합 다중 홉 질의에 대해 KnowledGPT가 일반 임베딩 기반 검색이나 BM25 기반 검색과 비교하여 지식 베이스에서의 검색을 어떻게 수행하는가?
- RQ2다양한 KB 간에 자연어 언급을 KB 엔티티에 일치시키는 엔티티 연결 및 중의성 해소 과정은 얼마나 효과적인가?
- RQ3개인화된 지식 베이스가 사용자 특정 지식 필요에 대한 답변 품질과 커버리지를 향상시키는가?
- RQ4더 풍부한 PKB 표현(설명 및 엔티티-측면 정보)을 사용했을 때 지식 추출 및 검색 성능에 미치는 영향은 무엇인가?
주요 결과
| 데이터셋 | BM25 | 임베딩 유사도 | SPE | KnowledGPT |
|---|---|---|---|---|
| NLPCC-100 | 0.71 | 0.31 | 0.85 | 0.92 |
| NLPCC-MH-59 | 0.44 | 0.19 | - | 0.93 |
- KnowledGPT는 일반 LLM에 비해 KB 기반 질문 응답에서 향상되었으며, 특히 다중 홉 질의에서 더 두드러진다.
- KnowledGPT 내에서 코드 생성과 엔티티 연결에 있어 GPT-4가 뛰어나며, 중간 단계에서 ChatGPT보다 더 높은 성공률을 달성한다.
- NLPCC-100 및 NLPCC-MH-59KBQA 벤치마크에서 KnowledGPT는 BM25 및 임베딩 기반 검색을 능가하고 제로샷 설정에서 SPE 방법을 능가한다.
- 엔티티 설명과 엔티티-측면 정보가 포함된 개인화된 KB는 삼중항만으로는 달성하지 못하는 지식 추출 커버리지를 확장하고 검색 및 답변 품질을 향상시킨다.
- 사례 연구에서 KnowledGPT가 저자와 제목과 같은 질문에 대해 검색 단계를 올바르게 연결해 대답할 수 있음을 보여 주며, 코드로 효과적인 다중 홉 추론을 시연한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.