Skip to main content
QUICK REVIEW

[논문 리뷰] Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering

Keheng Wang, Feiyu Duan|arXiv (Cornell University)|2023. 08. 25.
Topic Modeling인용 수 10
한 줄 요약

KD-CoT는 외부 QA 시스템과 상호작용하는 지식 주도형 체인-오브-생각 프레임워크를 도입하여 중간 추론을 검증 및 조정하고 지식 집약적 KBQA의 WebQSP 및 CWQ 성능을 향상시킵니다.

ABSTRACT

Equipped with Chain-of-Thought (CoT), Large language models (LLMs) have shown impressive reasoning ability in various downstream tasks. Even so, suffering from hallucinations and the inability to access external knowledge, LLMs often come with incorrect or unfaithful intermediate reasoning steps, especially in the context of answering knowledge-intensive tasks such as KBQA. To alleviate this issue, we propose a framework called Knowledge-Driven Chain-of-Thought (KD-CoT) to verify and modify reasoning traces in CoT via interaction with external knowledge, and thus overcome the hallucinations and error propagation. Concretely, we formulate the CoT rationale process of LLMs into a structured multi-round QA format. In each round, LLMs interact with a QA system that retrieves external knowledge and produce faithful reasoning traces based on retrieved precise answers. The structured CoT reasoning of LLMs is facilitated by our developed KBQA CoT collection, which serves as in-context learning demonstrations and can also be utilized as feedback augmentation to train a robust retriever. Extensive experiments on WebQSP and ComplexWebQuestion datasets demonstrate the effectiveness of proposed KD-CoT in task-solving reasoning generation, which outperforms the vanilla CoT ICL with an absolute success rate of 8.0% and 5.1%. Furthermore, our proposed feedback-augmented retriever outperforms the state-of-the-art baselines for retrieving knowledge, achieving significant improvement in Hit and recall performance. Our code and data are released on https://github.com/AdelWang/KD-CoT/tree/main.

연구 동기 및 목표

  • LLM의 지식 집약적 KBQA 작업에서 환각 및 불충분한 중간 추론 문제를 해결합니다.
  • 외부 QA 시스템을 활용하여 정확한 지식을 검색하고 중간 부분 답변을 확인/수정합니다.
  • 맥락 내 학습 및 검색기 학습을 가능하게 하는 KBQA CoT 수집을 구성합니다.
  • 피드백 증강 검색 및 검증기가 지식 접근성과 추론 품질을 향상시킨다는 것을 보여줍니다.

제안 방법

  • 반복적 유사도 기반 시演으로 LLM을 프롬프트하여 KBQA CoT 수집을 구성하고 ChatGPT를 이용해 구조화된 CoT 합리화를 생성합니다.
  • KD-CoT를 제안합니다: LLM이 도출한 하위 질문을 검색-후-읽기 QA 시스템 및 검증기에 전달하는 대화식 루프로, 최종 답변을 바꾸지 않고 CoT를 다듬는 과정을 반복합니다.
  • KB를 선형화(예: Freebase 1-hop 부분 그래프)하여 검색과 Wikipedia 구절과 함께 사용할 수 있도록 비구조화 텍스트로 만듭니다.
  • CoT 수집을 사용해 DPR 기반 피드백 증강 검색기를 학습하여 질의 및 답변 엔티티를 포함하는 관련 구절을 식별합니다.
  • Fuse-in-Decoder 리더를 사용해 상위-N 구절을 질문과 함께 인코딩하고 후보 답변을 생성합니다; PEFT 기반 검증기를 학습시켜 LLM의 하위 답변과 검색된 답변 중에서 선택합니다.
  • 구조화된 CoT 시演이 비구조화된 CoT 및 다른 ICL 기반 대비 지식 집약적 다중 호성 KBQA에서 더 우수하다고 시연합니다.

실험 결과

연구 질문

  • RQ1외부 지식 검색과 중간 검증이 KBQA에서 LLM 추론의 충실도를 향상시킬 수 있는가?
  • RQ2구조화된 CoT 수집이 지식 집약적 질문에 대한 더 나은 맥락 내 학습과 검색 강화를 가능하게 하는가?
  • RQ3피드백 증강 검색기와 검증기가 WebQSP 및 CWQ의 검색 품질과 정답 정확도에 어떤 영향을 미치는가?
  • RQ4KD-CoT 프레임워크를 사용한 다중 호 구조 추론에서 반복 횟수가 미치는 트레이드오프는 무엇인가?

주요 결과

  • KD-CoT가 WebQSP의 Hits@1에서 일반 CoT ICL 대비 8.0 포인트, CWQ에서 5.1 포인트의 성능 향상을 보였습니다.
  • 피드백 증강 검색기(FBA-DPR)가 이전 연구(WebQSP 및 CWQ) 대비 상위 100개 구절의 히트/재현율을 크게 개선했습니다.
  • 검증기는 LLM의 하위 답변을 자주 보존하지만 자주 수정함으로써 최종 답변의 품질 향상에 기여했습니다.
  • 반복적 상호작용은 CWQ(다중 호)가 WebQSP(단일 호에 더 가깝함)보다 성능 향상을 더 크게 나타내며, KD-CoT가 복잡한 질문에서 더 큰 도움이 됨을 시사합니다.
  • CoT 합리화를 통한 소형 모델 파인튜닝은 간단한 질문에서 약간의 이득을 주지만, 복잡한 다중 호 KBQA에서는 해로울 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.