[논문 리뷰] Active Retrieval Augmented Generation
FLARE는 장기 형식의 생성 중에 언제 무엇을 검색할지 결정하는 미래 지향적(active) 검색 프레임워크를 도입하여 다수의 지식 집약적 작업에서 사실성 및 범위를 개선합니다. 네 가지 장기 형식 데이터셋에서 기본 모델과 비교해 우수하거나 경쟁력 있는 성능을 보여줍니다.
Despite the remarkable ability of large language models (LMs) to comprehend and generate language, they have a tendency to hallucinate and create factually inaccurate output. Augmenting LMs by retrieving information from external knowledge resources is one promising solution. Most existing retrieval augmented LMs employ a retrieve-and-generate setup that only retrieves information once based on the input. This is limiting, however, in more general scenarios involving generation of long texts, where continually gathering information throughout generation is essential. In this work, we provide a generalized view of active retrieval augmented generation, methods that actively decide when and what to retrieve across the course of the generation. We propose Forward-Looking Active REtrieval augmented generation (FLARE), a generic method which iteratively uses a prediction of the upcoming sentence to anticipate future content, which is then utilized as a query to retrieve relevant documents to regenerate the sentence if it contains low-confidence tokens. We test FLARE along with baselines comprehensively over 4 long-form knowledge-intensive generation tasks/datasets. FLARE achieves superior or competitive performance on all tasks, demonstrating the effectiveness of our method. Code and datasets are available at https://github.com/jzbjyb/FLARE.
연구 동기 및 목표
- 장기 형식 생성 중 지속적인 정보 수집의 필요성을 제시하여 환상적 진실성(hallucination)을 줄인다.
- 생성 중 언제 무엇을 검색할지 결정하는 일반적인 활성 검색 프레임워크를 제안한다.
- 전망 신호를 사용해 검색을 촉발하고 텍스트를 재생성하는 FLARE를 소개한다.
- 네 가지 장기 형식의 지식 집약적 작업에서 FLARE를 평가해 일반성과 효과를 검증한다.
제안 방법
- 활성 검색 강화 생성(active retrieval augmented generation)을 형식화하여 검색 쿼리가 이전 컨텍스트와 출력에 기반해 생성 단계에서 만들어진다.
- 두 가지 FLARE 버전 제시: FLARE_instruct는 검색-지시 프롬프트를 사용해 쿼리를 유도하고; FLARE_direct는 다음 문장 생성을 사용해 검색을 촉발한다.
- FLARE_direct에서 임시 다음 문장을 생성하고 신뢰도가 낮으면 검색을 촉발한 뒤 검색된 문서로 문장을 재생성한다.
- 신뢰도/확률 임계값을 사용해 언제 검색할지(theta)와 검색 없이 진행할지 결정한다.
- 다음 문장 또는 낮은 신뢰도 구간에서 파생된 마스킹된/명시적 질문으로부터 노이즈를 줄이기 위해 쿼리를 구성한다.
- 오프-더-쉘프 검색기(BM25 위키피디아 덤프; Bing은 오픈 웹)와 LM으로 GPT-3.5 text-davinci-003를 사용해 평가한다.
실험 결과
연구 질문
- RQ1검색 여부를 결정하는 활성 검색 전략이 지식 집약적 장기 형식 생성의 품질을 향상시킬 수 있는가?
- RQ2다른 쿼리 형식(다음 문장, 마스킹 토큰, 명시적 질문)이 검색 품질과 생성 충실도에 어떤 영향을 미치는가?
- RQ3과거 맥락을 쿼리로 사용하는 것보다 전방 전망 검색이 장기 형식 생성 작업에서 더 효과적인가?
- RQ4검색 빈도(theta에 의한 임계값)의 변화가 성능과 효율성에 어떤 영향을 미치는가?
주요 결과
| Dataset | EM | F1 | Prec. | Rec. |
|---|---|---|---|---|
| No retrieval | 28.2 | 36.8 | 36.5 | 38.6 |
| Single-time retrieval | 39.4 | 48.8 | 48.6 | 51.5 |
| Multi-time retrieval (Previous-window) | 43.2 | 52.3 | 51.7 | 54.5 |
| Multi-time retrieval (Previous-sentence) | 39.0 | 49.2 | 48.9 | 51.8 |
| FLARE_instruct | 42.4 | 49.8 | 49.1 | 52.5 |
| FLARE_direct | 51.0 | 59.7 | 59.1 | 62.6 |
- FLARE는 단일 시점 및 다중 시점 기준선 대비 네 가지 장기 형식의 지식 집약적 작업에서 우수하거나 경쟁력 있는 성능을 달성한다.
- 2WikiMultihopQA에서 FLARE_direct는 나열된 기준선 중에서 최고의 EM(51.0)과 F1(59.7)을 달성한다.
- StrategyQA, ASQA, ASQA-hint, WikiAsp에서도 FLARE 방법이 핵심 지표에서 기준선을 능가하며 일반성을 보여준다.
- 전망 지향 검색(다음 문장을 쿼리로 사용하는)이 과거 맥락 검색(과거 문장이나 윈도우 사용)보다 분해에서 우수하다.
- 검색 전에 낮은 신뢰도 토큰을 마스킹하는 것이 다음 문장을 쿼리로 전체를 사용하는 것보다 성능을 향상시킨다.
- 낮은 신뢰도 구간에 대해 명시적으로 생성된 질문은 암묵적 마스킹과 비슷한 성능을 보여주며, 유연한 쿼리 형식을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.