QUICK REVIEW

[논문 리뷰] Recitation-Augmented Language Models

Zhiqing Sun, Xuezhi Wang|arXiv (Cornell University)|2022. 10. 04.

Topic Modeling인용 수 30

한 줄 요약

RECITE는 LLM이 먼저 자신의 기억에서 구절을 암송하고 그다음에 답을 생성하는 recite-and-answer 패러다임을 도입하여, 외부 검색 없이도 여러 데이터셋과 모델 계열에서 폐쇄형 질의응답(closed-book QA)을 개선합니다.

ABSTRACT

We propose a new paradigm to help Large Language Models (LLMs) generate more accurate factual knowledge without retrieving from an external corpus, called RECITation-augmented gEneration (RECITE). Different from retrieval-augmented language models that retrieve relevant documents before generating the outputs, given an input, RECITE first recites one or several relevant passages from LLMs' own memory via sampling, and then produces the final answers. We show that RECITE is a powerful paradigm for knowledge-intensive NLP tasks. Specifically, we show that by utilizing recitation as the intermediate step, a recite-and-answer scheme can achieve new state-of-the-art performance in various closed-book question answering (CBQA) tasks. In experiments, we verify the effectiveness of \method~on four pre-trained models (PaLM, UL2, OPT, and Codex) and three CBQA tasks (Natural Questions, TriviaQA, and HotpotQA). Our code is available at "https://github.com/Edward-Sun/RECITE".

연구 동기 및 목표

외부 검색 없이 지식 집약적 작업에서 사실성 정확도를 높이려는 동기.
QA를 암송(기억 기반 검색) 단계와 최종 답변 생성 단계로 분해.
다양한 대형 언어 모델과 CBQA 데이터셋 전반에서 효과를 입증.
다양화된 암송, 자기 일관성, 암송 품질 향상을 위한 미세조정을 통한 개선점 탐색.

제안 방법

모델 기억에서의 지식 암송과 이를 바탕으로 문제를 해결하여 답을 제시하는 두 단계 RECITE 프레임워크를 제안.
질문-답변 예시를 조건으로 암송을 생성하기 위해 프롬프트 기반 인-컨텍스트 학습을 활용.
여러 차례의 암송과 다수결 투표를 통한 자기 일관성을 적용하여 최종 답을 선택.
여러 암송-답변을 통한 다중 홉 질문 확장을 도입하여 여러 암송에서 정보를 결합.
증거 다양성과 사실 정확도를 높이기 위해 구절 힌트 기반의 다변화 암송을 도입.
질문-힌트-구절 합성 데이터에 대해 LLM을 미세조정하여 질문을 암송 및 구절과 더 잘 매핑하도록 함.

실험 결과

연구 질문

RQ1외부 검색 없이도 RECITE가 여러 데이터셋과 모델 규모에 걸쳐 폐쇄형 QA를 개선할 수 있는가?
RQ2RECITE에서 자기 일관성과 다양화된 암송이 답변 품질과 강건성에 미치는 영향은 무엇인가?
RQ3지식 집약적 작업에서 RECITE가 검색 기반 및 사고의 흐름(chain-of-thought) 기준선과 어떻게 비교되는가?
RQ4합성된 질문-힌트-구절 데이터로의 미세조정이 암송 효과를 더 향상시키는가?
RQ5Natural Questions, TriviaQA, HotpotQA와 같은 데이터셋에서 단일 홉 vs 다중 홉 질문에 대해 RECITE의 성능은 어떠한가?

주요 결과

RECITE의 recite-and-answer는 PaLM, UL2, OPT, Codex 등 여러 모델과 CBQA 데이터셋에서 표준 프롬프트 대비 측정 가능한 향상을 보인다.
PaLM-62B에서 자연질문(Natural Questions)에 대한 다변화 암송 및 구절 암송이 성능을 더 높인다.
자기 일관성(다경로 암송)은 일반적으로 답변 정확도를 향상시키며, 더 많은 암송이 어느 정도까지 더 나은 결과를 낳는다.
실험 설정에서 다중 홉 QA(HotpotQA)에서 일부 사고의 흐름(BOT) 기준선보다 RECITE가 더 잘 작동할 수 있다.
암송 기반 접근은 외부 검색 없이도 경쟁력 있는 결과를 보이며, 일부 맥락에서 BM25 검색 기준선과 근접하거나 이를 따라잡는 경우가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.