[논문 리뷰] RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation
RQ-RAG는 7B Llama2 모델을 훈련시켜 회수-강화 생성(retrieval-augmented generation)을 위한 질의를 재작성, 분해, 모호성 제거하도록 하여 단일 히프 QA에서 최첨단 성능을 달성하고 다중-히프 QA에서 강한 향상을 얻었다.
Large Language Models (LLMs) exhibit remarkable capabilities but are prone to generating inaccurate or hallucinatory responses. This limitation stems from their reliance on vast pretraining datasets, making them susceptible to errors in unseen scenarios. To tackle these challenges, Retrieval-Augmented Generation (RAG) addresses this by incorporating external, relevant documents into the response generation process, thus leveraging non-parametric knowledge alongside LLMs' in-context learning abilities. However, existing RAG implementations primarily focus on initial input for context retrieval, overlooking the nuances of ambiguous or complex queries that necessitate further clarification or decomposition for accurate responses. To this end, we propose learning to Refine Query for Retrieval Augmented Generation (RQ-RAG) in this paper, endeavoring to enhance the model by equipping it with capabilities for explicit rewriting, decomposition, and disambiguation. Our experimental results indicate that our method, when applied to a 7B Llama2 model, surpasses the previous state-of-the-art (SOTA) by an average of 1.9\% across three single-hop QA datasets, and also demonstrates enhanced performance in handling complex, multi-hop QA datasets. Our code is available at https://github.com/chanchimin/RQ-RAG.
연구 동기 및 목표
- 사용자 질의의 모호성과 복잡성을 해결하여 회수-강화 생성을 개선할 필요성을 동기화한다.
- 명시적인 질의 재작성, 분해, 모호성 제거를 가능하게 하는 학습 프레임워크를 개발한다.
- 모델이 질의를 정제하고 검색된 문서를 효과적으로 활용하도록 가르치는 데이터셋과 학습 체계를 만든다.
- 여러 QA 벤치마크에서 기존 SOTA 방법들에 비해 실증적 이득을 입증한다.
제안 방법
- 원본 입력-출력 쌍을 재정의 액션 및 검색된 문서(재작성, 분해, 모호성 제거)를 포함하는 시퀀스로 변환하는 데이터셋 구성.
- 정제된 질의와 상황 맥락에 근거한 답변을 자동으로 생성하기 위해 ChatGPT를 활용한 어노테이션 자동화.
- 자기회귀 목표를 통해 p(y|q1,d1,...,x)를 최대화하도록 7B Llama2 모델을 학습한다.
- 삼가지 궤적 선택 방법(당혹도(perplexity) 기반, 신뢰도 기반, 엔실름 기반)을 사용하는 트리 디코딩 샘플링 전략을 구현한다.
- 어떤 궤적이 정답을 도출하는지 추적하여 상한을 평가한다.
실험 결과
연구 질문
- RQ1모델이 질의를 재작성, 분해, 모호성 제거하도록 학습시켜 회수-강화 생성의 성능을 어떻게 향상시킬 수 있는가?
- RQ2정제된 질의 궤적이 단일-힙 및 다중-힙 과제에서 베이스라인보다 QA 성능을 향상시키는가?
- RQ3RAG에서 질의 정제에 최적의 데이터 소스 및 샘플링 전략은 무엇인가?
- RQ4정교한 질문에 답하기 위한 질의 정제 궤적의 상한 잠재력은 어느 정도인가?
주요 결과
- RQ-RAG는 단일-힙 QA 과제에서 Self-RAG 및 SAIL보다 우수한 성능을 보이며, ARC_C, POPQA, OBQA를 포함한 이전 SOTA 베이스라인 대비 평균 1.9%의 향상을 달성한다.
- 다중-힙 QA 과제에서 RQ-RAG는 강력한 베이스라인 대비 평균 22.6%의 상당한 이득을 얻고, 더 작은 7B 백본임에도 Chain-of-Thought/Chain-of-Note 접근법을 능가한다.
- 검색된 맥락을 기반으로 답을 재생성하는 방식은 원래 답문의 일부를 retaining하는 방식보다 더 높은 이득을 제공한다.
- RQ-RAG는 추론 시 DuckDuckGo, Wikipedia, Bing과 같은 검색 소스를 사용할 때도 데이터 소스에 대한 강건성을 보이며, 일부 베이스라인과 달리 성능 편차가 미미하다.
- 이 접근법은 상한 잠재력이 높음을 보여주며, 올바른 궤적이 선택되면 시스템이 상당히 더 높은 정확도를 달성할 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.