[논문 리뷰] WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia
WikiChat은 검색과 LLM 생성, 주장별 사실검사를 결합한 소수 샷, Wikipedia 기반 챗봇 파이프라인으로 지연, 비용, 프라이버시 이점을 위해 더 작은 모델로 증류한 것.
This paper presents the first few-shot LLM-based chatbot that almost never hallucinates and has high conversationality and low latency. WikiChat is grounded on the English Wikipedia, the largest curated free-text corpus. WikiChat generates a response from an LLM, retains only the grounded facts, and combines them with additional information it retrieves from the corpus to form factual and engaging responses. We distill WikiChat based on GPT-4 into a 7B-parameter LLaMA model with minimal loss of quality, to significantly improve its latency, cost and privacy, and facilitate research and deployment. Using a novel hybrid human-and-LLM evaluation methodology, we show that our best system achieves 97.3% factual accuracy in simulated conversations. It significantly outperforms all retrieval-based and LLM-based baselines, and by 3.9%, 38.6% and 51.0% on head, tail and recent knowledge compared to GPT-4. Compared to previous state-of-the-art retrieval-based chatbots, WikiChat is also significantly more informative and engaging, just like an LLM. WikiChat achieves 97.9% factual accuracy in conversations with human users about recent topics, 55.0% better than GPT-4, while receiving significantly higher user ratings and more favorable comments.
연구 동기 및 목표
- 신뢰할 수 있는 말뭉치(Wikipedia)에 LLM 출력을 근거로 삼아 오픈 도메인 챗봇의 사실성 향상.
- 7단계 검색-생성 파이프라인을 통해 높은 대화성 및 낮은 지연 달성.
- 품질을 희생하지 않으면서 다단계 시스템을 더 작은 모델로 증류하는 것을 입증.
- 사람-LLM 평가를 포함한 시뮬레이션 데이터와 실사용자 데이터를 결합한 평가 방법론 제시.
제안 방법
- Stage 1: 사용자 발화에서 질의를 생성하고 시간적 재랭킹으로 위키피디아 구절을 검색한다.
- Stage 2: 관련 구절을 추출하고 사실 근거를 위해 불릿 포인트로 요약한다.
- Stage 3: 대화 이력과 불릿 포인트로부터 응답을 생성하도록 LLM에 프롬프트를 제공한다.
- Stage 4: LLM 응답을 주장으로 분해하고 각 주장에 대한 증거를 검색한다.
- Stage 5: 사고 흐름 체인 프롬프트를 사용해 각 주장을 지원, 반박, 또는 불확정으로 분류하고, 지지되지 않는 주장은 버린다.
- Stage 6: 근거가 있는 불릿과 대화 이력으로부터 최종 응답 초안을 작성한다.
- Stage 7: 관련성, 자연스러움, 반복성 없음, 시간적 정확성에 대한 피드백으로 초안을 다듬는다.
실험 결과
연구 질문
- RQ1소수 샷 LLM이 신뢰할 수 있는 말뭉치에 근거를 두고 사실적이며 매력적인 응답을 낮은 허위정보 비율로 생성할 수 있는가?
- RQ27단계 검색-근거 파이프라인이 검색 기반 및 순수 LLM 베이스라인에 비해 사실성, 대화성, 지연 시간에서 어떤 차이를 보이는가?
- RQ3WikiChat를 더 작은 모델로 증류해도 사실성 및 대화성을 보존하면서 지연 시간과 비용을 줄일 수 있는가?
- RQ4지식에 근거한 챗봇의 사실성 및 대화성을 평가하는 최적의 평가 방법론은 무엇인가?
주요 결과
- WikiChat GPT-4는 시뮬레이션 대화에서 97.3%의 사실 정확도, 실제 사용자 대화에서 97.9%의 사실 정확도를 달성했다.
- WikiChat 변형은 사실성에서 Atlas(최신 검색 기반 모델)를 능가하고 LLM과의 대화성에서 비슷한 수준을 보인다.
- WikiChat G4를 7B LLaMA 모델로 증류하면 91.1%의 사실 정확도와 학생 모델 대비 엔드투엔드 지연 3.2배 감소를 보인다.
- WikiChat의 사실성 우위는 GPT-4에 비해 특히 꼬리 지식 및 최근 지식에서 가장 크게 나타난다.
- 최종 응답의 주장 중 3분의 1은 사실검증 단계에서 거부되며, 주장 수준의 검증이 중요함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.