[논문 리뷰] Improving Language Models via Plug-and-Play Retrieval Feedback
ReFeed는 초기 답변을 조건으로 문서를 검색하여 LLM 출력의 정확성을 향상시키는 플러그 앤 플레이 검색 피드백 파이프라인을 도입하며, 미세 조정 없이 제로샷 및 소수샷 지식 집약적 작업의 사실성을 개선합니다.
Large language models (LLMs) exhibit remarkable performance across various NLP tasks. However, they often generate incorrect or hallucinated information, which hinders their practical applicability in real-world scenarios. Human feedback has been shown to effectively enhance the factuality and quality of generated content, addressing some of these limitations. However, this approach is resource-intensive, involving manual input and supervision, which can be time-consuming and expensive. Moreover, it cannot be provided during inference, further limiting its practical utility in dynamic and interactive applications. In this paper, we introduce ReFeed, a novel pipeline designed to enhance LLMs by providing automatic retrieval feedback in a plug-and-play framework without the need for expensive fine-tuning. ReFeed first generates initial outputs, then utilizes a retrieval model to acquire relevant information from large document collections, and finally incorporates the retrieved information into the in-context demonstration for output refinement, thereby addressing the limitations of LLMs in a more efficient and cost-effective manner. Experiments on four knowledge-intensive benchmark datasets demonstrate our proposed ReFeed could improve over +6.0% under zero-shot setting and +2.5% under few-shot setting, compared to baselines without using retrieval feedback.
연구 동기 및 목표
- 비용이 많이 드는 미세 조정 없이 LLM의 망상 및 사실 오류를 줄이는 것을 목표로 한다.
- 검색된 문서를 사용해 지식 집약적 작업에 대한 초기 출력을 다듬는 검색 피드백 파이프라인을 개발한다.
- 최종 답변의 신뢰성을 높이기 위한 초기 생성의 다변화 및 앙상블 전략을 탐구한다.
제안 방법
- 쿼리에 대해 LLM이 초기 답변을 생성하도록 프롬프트한다.
- 초기 답변을 검색 쿼리의 일부로 사용하여 상위-k 문서를 검색한다.
- 검색된 정보를 조건부로 포함시켜 초기 답변을 다듬는다.
- 더 풍부한 피드백을 얻기 위해 다수의 답변 후보를 얻도록 초기 생성을 다각화한다.
- 최종 답변을 선택하기 위해 음의 로그 가능도(NLL)로 순위를 매겨 검색 전후의 출력들을 앙상블한다.

실험 결과
연구 질문
- RQ1사람의 주석 대신 자동 검색을 사용하여 미세 조정 없이 검색 피드백으로 LLM 출력을 개선할 수 있는가?
- RQ2이전 출력을 효율적으로 다듬기 위해 검색 피드백을 플러그 앤 플레이 방식으로 통합할 수 있는가?
- RQ3초기 생성의 다양성과 앙상블 전략이 정확성과 견고성을 향상시키는가?
주요 결과
- ReFeed는 NQ와 TriviaQA에서 제로샷 EM/F1을 향상시키며, 검색 피드백 없이 베이스라인 대비 일부 지식 집약적 작업에서 +6.0% 이상을 달성한다.
- ReFeed는 소수샷 설정에서도 이익을 보이며, 대응하는 베이스라인 대비 EM/F1이 약 +2.5% 정도 향상된다.
- 초기 생성의 다양성과 앙상블 방법은 견고성에 기여하며, 구성 요소를 제거하면 성능 저하가 나타난다는 제시된 제거 분석 결과가 있다.
- CoT 프롬프트와 결합될 때 ReFeed는 다중 홉 QA(HotpotQA)에 대한 사고의 흐름 추론(chain-of-thought)을 향상시킬 수 있다.
- 사례 연구는 성공적인 개선과 검색된 문서가 모델을 오도하는 사례를 모두 보여주며 앙상블 전략의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.