[논문 리뷰] Corrective Retrieval Augmented Generation
CRAG는 잘못되었거나 모호한 검색을 처리하고 웹 검색 및 검색된 텍스트의 분해-재구성 정제를 보완하여 Retrieval-Augmented Generation의 로버스트성을 향상시키는 경량 검색 평가기와 수정 조치를 도입합니다.
Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.
연구 동기 및 목표
- RAG의 검색 정확도 문제와 LLM 출력의 잠재적 환각을 해결하여 강건성을 촉진한다.
- 쿼리에 대한 검색 문서의 품질을 평가하기 위한 경량 검색 평가기를 제안한다.
- 지식 보강을 촉진하기 위해 수정(Correct), 잘못됨(Incorrect), 모호함(Ambiguous) 등의 수정 조치를 도입한다.
- 표준 RAG 및 Self-RAG 접근 방식과 도메인 간에 통합될 수 있는 플러그앤드플레이 CRAG 모듈을 개발한다.
- 짧은 형식 및 긴 형식 생성 태스크 전반에 걸쳐 CRAG의 일반화 가능성을 입증한다.
제안 방법
- 주어진 쿼리에 대해 각 검색 문서의 관련성을 점수화하기 위해 경량 검색 평가기(T5-large 기반)를 설계한다.
- 상한/하한 임계값에 의해 작동하는 세 가지 행동(Correct, Incorrect, Ambiguous)을 갖춘 신뢰도 기반 행동 정책을 정의한다.
- Correct가 트리거되면 문서를 지식 스트립으로 분해하고, 필터링하고, 관련 부분을 재조합하는 지식 정제를 수행한다.
- Incorrect가 트리거되면 검색 결과를 버리고 외부 지식을 얻기 위해 웹 검색을 수행한다.
- Ambiguous가 트리거되면 내부 정제와 외부 웹 검색을 결합한다.
- 키워드로 재작성된 쿼리를 사용하여 웹 검색 모듈을 통합하고 외부 지식을 얻어 동일한 정제 절차를 적용하여 관련 콘텐츠를 추출한다.
- CRAG가 플러그앤드플레이이며 RAG 및 Self-RAG 프레임워크와 호환되도록 보장한다.
실험 결과
연구 질문
- RQ1RAG 설정에서 검색 문서의 관련성과 신뢰성을 어떻게 평가할 수 있는가?
- RQ2경량 검색 평가기가 수정 조치를 효과적으로 트리거하여 생성 품질을 개선할 수 있는가?
- RQ3정적 코퍼라 실패할 때 웹 스케일 외부 지식을 웹 검색을 통해 도입하면 강인성이 향상되는가?
- RQ4지식 정제 및 조치 트리거가 짧은 형식 대 긴 형식 생성 작업에 어떤 영향을 미치는가?
- RQ5CRAG가 추가 지시 튜닝 없이 서로 다른 RAG 기반 접근 방식으로 전이 가능한가?
주요 결과
- CRAG는 표준 RAG 및 Self-RAG와 함께 사용할 때 짧은 형식 및 긴 형식 생성에 걸친 네 가지 데이터셋에서 성능을 크게 향상시킨다.
- CRAG는 평가자에 추가 주석을 필요로 하지 않으면서도 RAG와 Self-RAG를 모두 향상시킬 수 있는 플러그앤드플레이 모듈로서의 적응성을 보여준다.
- 경량의 T5 기반 검색 평가기는 주어진 쿼리에 대한 검색 문서 품질 평가에서 ChatGPT 기반 대안보다 우수한 성능을 보인다.
- 제거된 단일 조치나 핵심 지식 활용 작업이 제거될 때 성능 저하가 나타나는 것으로 나타나, 정제, 재작성, 외부 지식 선택의 기여를 강조한다.
- CRAG는 검색 품질의 변화에 대한 강건성을 향상시키며, Self-CRAG가 Self-RAG보다 검색 품질 저하 시 더 큰 탄력성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.