Skip to main content
QUICK REVIEW

[논문 리뷰] Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation

Shengjie Ma, Chengjin Xu|arXiv (Cornell University)|2024. 07. 15.
Topic Modeling인용 수 8
한 줄 요약

Think-on-Graph 2.0 (ToG 2.0)은 KG를 기반으로 한 검색 보강 생성 프레임워크로, 지식 그래프와 비구조화 문서를 통합하여 깊이 있고 해석 가능한 추론과 복잡한 QA 태스크에서의 정확도 향상을 가능하게 한다.

ABSTRACT

Retrieval-augmented generation (RAG) has improved large language models (LLMs) by using knowledge retrieval to overcome knowledge deficiencies. However, current RAG methods often fall short of ensuring the depth and completeness of retrieved information, which is necessary for complex reasoning tasks. In this work, we introduce Think-on-Graph 2.0 (ToG-2), a hybrid RAG framework that iteratively retrieves information from both unstructured and structured knowledge sources in a tight-coupling manner. Specifically, ToG-2 leverages knowledge graphs (KGs) to link documents via entities, facilitating deep and knowledge-guided context retrieval. Simultaneously, it utilizes documents as entity contexts to achieve precise and efficient graph retrieval. ToG-2 alternates between graph retrieval and context retrieval to search for in-depth clues relevant to the question, enabling LLMs to generate answers. We conduct a series of well-designed experiments to highlight the following advantages of ToG-2: 1) ToG-2 tightly couples the processes of context retrieval and graph retrieval, deepening context retrieval via the KG while enabling reliable graph retrieval based on contexts; 2) it achieves deep and faithful reasoning in LLMs through an iterative knowledge retrieval process of collaboration between contexts and the KG; and 3) ToG-2 is training-free and plug-and-play compatible with various LLMs. Extensive experiments demonstrate that ToG-2 achieves overall state-of-the-art (SOTA) performance on 6 out of 7 knowledge-intensive datasets with GPT-3.5, and can elevate the performance of smaller models (e.g., LLAMA-2-13B) to the level of GPT-3.5's direct reasoning. The source code is available on https://github.com/IDEA-FinAI/ToG-2.

연구 동기 및 목표

  • KG 기반 RAG를 통해 LLM의 지식 격차 및 환각 문제를 해결하려는 동기를 제시한다.
  • 질문을 지식 그래프와 정렬시키고 깊이 있는 추론을 가능하게 하는 그래프 기반 검색 프레임워크를 제안한다.
  • 구조화된 KG 정보와 비구조화 문서 맥락을 통합하여 정확도와 해석 가능성을 높인다.
  • 기준 모델과 비교하여 다중 홉 QA 데이터셋에서 성능 향상을 시연한다.

제안 방법

  • 지식 그래프를 내비게이션 도구로 활용하는 향상된 RAG 프레임워크로 Tog 2.0를 소개한다.
  • 다중 홉 추론 경로를 구축하기 위해 관계 가지치기, 엔티티 가지치기 및 examine-and-reason 단계를 반복적으로 수행한다.
  • Topic Prune (TP)로 시작 엔티티를 선택하고, Relation Prune (RP)로 엔티티 간의 관계를 선택하며, DPR 기반 엔티티 순위를 사용하여 KG 컨텍스트에서 후보 엔티티를 선택한다.
  • KG에서 파생된 단서를 비구조화 문서 맥락과 융합하여 LLM 추론을 안내하고 검색 범위를 효율적으로 제어한다.
  • LLM를 조정하기 위한 단서 질의를 제공하고 후보 엔티티에 대해 청크 수준의 관련도 점수를 사용한다.
  • 벤치마크 전반에서 각 구성요소의 정확도 기여도를 정량화하기 위한 소거(ablation) 실험으로 평가한다.

실험 결과

연구 질문

  • RQ1KG 기반 검색이 LLM 기반 QA에서 장거리 추론과 일관성을 향상시킬 수 있는가?
  • RQ2구조화된 KG 네비게이션을 비구조화 문서 검색과 통합하는 것이 다중 홉 QA의 정확도와 효율성을 향상시키는가?
  • RQ3Topic Prune, Relation Prune 및 clue-query 전략이 추론 성능에 미치는 영향은 무엇인가?
  • RQ4표준 QA 벤치마크에서 ToG 2.0이 Vanilla RAG, CoT, CoK, 및 이전 ToG와 어떻게 비교되는가?

주요 결과

  • ToG 2.0은 GPT-3.5-turbo 사용 시 WebQSP, HotpotQA, QALD-10-en에서 기준선 대비 성능을 향상시키며(EM 점수: 54.05, 40.91, 54.05 각각; FEVER 정확도 58.54와 함께).
  • 원래의 ToG와 비교하여 ToG 2.0은 HotpotQA에서 주목할 만한 증가(14.6%), WebQSP에서 4.93%, QALD-10-en에서 3.85%, FEVER에서 5.84%의 증가를 보인다.
  • 소거 분석은 Topic Prune이 WebQSP 성능을 향상시키고, Relation Prune이 추론 호출 수와 지연을 감소시키며 일부 설정에서 트레이드오프가 있을 수 있으며, clue-query 프롬프트가 모든 데이터셋에서 성능을 향상시킴을 보여준다.
  • 약한 LLM(Llama-2-13B)을 사용할 때 Tog 2.0의 이점이 더 커지며, KG+맥락이 모델 용량이 낮을 때 도움이 됨을 시사한다.
  • Vanilla RAG with Llama-2-13B와 비교할 때 GPT-3.5-turbo를 사용하는 ToG 2.0은 WebQSP, HotpotQA, QALD-10-en, FEVER 전에서 더 높은 EM을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.