Skip to main content
QUICK REVIEW

[논문 리뷰] Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback

Baolin Peng, Michel Galley|arXiv (Cornell University)|2023. 02. 24.
Topic Modeling인용 수 144
한 줄 요약

이 논문은 LLM-Augmenter를 제시한다. 이는 외부 지식으로 고정된 LLM을 보강하는 플러그-앤-플레이 시스템이며, 자동 피드백을 통한 반복 프롬프트 수정, 그리고 유창성은 유지하면서 환각을 줄이는 학습 가능한 정책을 갖는다. 정보 탐색 대화 및 오픈 도메인 위키 QA에서 효과를 검증한다.

ABSTRACT

Large language models (LLMs), such as ChatGPT, are able to generate human-like, fluent responses for many downstream tasks, e.g., task-oriented dialog and question answering. However, applying LLMs to real-world, mission-critical applications remains challenging mainly due to their tendency to generate hallucinations and their inability to use external knowledge. This paper proposes a LLM-Augmenter system, which augments a black-box LLM with a set of plug-and-play modules. Our system makes the LLM generate responses grounded in external knowledge, e.g., stored in task-specific databases. It also iteratively revises LLM prompts to improve model responses using feedback generated by utility functions, e.g., the factuality score of a LLM-generated response. The effectiveness of LLM-Augmenter is empirically validated on two types of scenarios, task-oriented dialog and open-domain question answering. LLM-Augmenter significantly reduces ChatGPT's hallucinations without sacrificing the fluency and informativeness of its responses. We make the source code and models publicly available.

연구 동기 및 목표

  • 임무가 중요한 작업에 배치된 대형 언어 모델에서 환각 및 지식 격차를 줄이는 것을 목표로 한다.
  • 외부 지식으로 LLM 응답을 구체화하기 위한 플러그-앤-플레이 아키텍처(LLM-Augmenter)를 제안한다.
  • 응답 품질을 향상시키기 위해 자동 피드백을 통한 반복 프롬프트 개선을 가능하게 한다.
  • 전체 미세 조정 없이 고정된 LLM과 함께 작동하도록 정책 및 모듈의 학습 전략을 탐구한다.

제안 방법

  • 고정된 LLM에 외부 지식과 자동 피드백을 보강하는 플러그-앤-플레이 모듈 시스템으로 LLM-Augmenter를 소개한다.
  • 모듈 간 상호 작용을 가이드하기 위해 인간-시스템 대화를 마르코프 의사 결정 과정(MDP)으로 모델링한다.
  • 외부 증거를 검색하고 연결하는 지식 응집기와 근거를 위한 증거 체인기를 구현한다.
  • 지식과 피드백을 반영한 프롬프트를 생성하는 프롬프트 엔진을 사용한다.
  • 프롬프트 수정에 필요한 점수와 피드백을 생성하는 유틸리티 모듈을 개발한다.
  • 근거화와 유용성에 기반한 보상을 극대화하기 위해 REINFORCE를 통해 정책(pi)을 학습한다.
Figure 1: LLM-Augmenter improves a fixed LLM by (1) consolidating evidence from external knowledge for the LLM to generate responses grounded in evidence, and (2) revising LLM’s (candidate) responses using automated feedback.
Figure 1: LLM-Augmenter improves a fixed LLM by (1) consolidating evidence from external knowledge for the LLM to generate responses grounded in evidence, and (2) revising LLM’s (candidate) responses using automated feedback.

실험 결과

연구 질문

  • RQ1외부 지식 grounding이 고정된 LLM의 환각을 유창성을 잃지 않으면서 감소시킬 수 있는가?
  • RQ2자동 피드백 및 반복 프롬프트 수정이 응답의 사실적 근거와 유용성을 향상시키는가?
  • RQ3지식 소스를 사용할지 여부를 결정하는 데 있어 학습 가능한 정책의 효과는 어떠한가?
  • RQ4지식 응집 및 피드백이 오픈 도메인 위키 QA 및 대화 과제에 미치는 영향은 무엇인가?

주요 결과

  • LLM-Augmenter는 News Chat 및 고객 서비스 과제에서 ChatGPT만 사용할 때보다 grounding을 크게 개선하고 환각을 줄인다.
  • 골든 지식을 사용하는 것이 큰 성능 향상을 가져와, grounding을 위한 특정 작업의 외부 지식의 가치가 있음을 강조한다.
  • 자동 피드백과 증거 응집을 함께 사용하면 KF1 및 관련 지표가 베이스라인 대비 크게 향상된다.
  • 지식 응집을 가진 학습 가능한 정책은 무지식 응집자나 자체-질문 변형(self-ask)보다 더 나은 grounding을 달성하고 항상 지식을 사용하는 경우보다 효율성이 더 높다.
  • 위키 QA에서 CORE 기반 응집과 피드백은 원시 DPR 증거 및 비상책(ch) 대비 재현율과 F1을 크게 향상시킨다.
  • 인간 평가에 따르면 LLM-Augmenter는 고객 서비스 시나리오에서 ChatGPT alone보다 더 유용하고 인간과 비슷하다고 평가된다.
Figure 2: LLM-Augmenter architecture showing how its plug-and-play modules interact with the LLM and the user’s environment.
Figure 2: LLM-Augmenter architecture showing how its plug-and-play modules interact with the LLM and the user’s environment.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.