[논문 리뷰] Rethinking with Retrieval: Faithful Large Language Model Inference
이 논문은 체인-오브-생각(chain-of-thought) 프롬프트를 사용하여 추론 경로를 생성하고, 각 단계에서 외부 지식을 검색하며, 학습이나 미세튜닝 없이 가장 충실한 예측을 선택하는 후처리 접근법을 제안한다.
Despite the success of large language models (LLMs) in various natural language processing (NLP) tasks, the stored knowledge in these models may inevitably be incomplete, out-of-date, or incorrect. This motivates the need to utilize external knowledge to assist LLMs. Unfortunately, current methods for incorporating external knowledge often require additional training or fine-tuning, which can be costly and may not be feasible for LLMs. To address this issue, we propose a novel post-processing approach, rethinking with retrieval (RR), which retrieves relevant external knowledge based on the decomposed reasoning steps obtained from the chain-of-thought (CoT) prompting. This lightweight approach does not require additional training or fine-tuning and is not limited by the input length of LLMs. We evaluate the effectiveness of RR through extensive experiments with GPT-3 on three complex reasoning tasks: commonsense reasoning, temporal reasoning, and tabular reasoning. Our results show that RR can produce more faithful explanations and improve the performance of LLMs.
연구 동기 및 목표
- 외부 지식으로 보유된 지식의 불완전성 또는 시대에 뒤떨어진 저장 지식으로 인해 LLM을 보완할 필요성을 동기화한다.
- 외부 지식 베이스에서의 검색을 안내하기 위해 체인-오브-생각 추론을 활용하는 후처리 방법(Rethinking with Retrieval, RR)을 소개한다.
- RR이 학습이나 미세튜닝 없이 여러 추론 작업에서 신뢰성 및 예측 정확도를 향상시킨다는 것을 보여준다.
- 세 가지 작업(일반상식, 시간적 추론, 표 형식 추론)을 GPT-3 및 다양한 지식 소스와 함께 평가한다.
- 지식 증가형 LLM 추론의 향후 연구를 위한 변형 및 한계에 대한 분석을 제공한다.
제안 방법
- 다양한 추론 경로(R1,...,RN)와 설명 Ei 및 예측 Pi를 생성하기 위해 체인-오브-생각 프롬프팅을 사용한다.
- 설명의 문장들에 BM25를 적용하여 각 추론 경로에 대한 외부 지식 KB를 검색하고 MPNet으로 유사한 단락을 선택하고 신경 포괄 모델로 점수화하여 f_KB(Ri)를 얻는다.
- 최종 예측은 경로 간의 가장 높은 충실도 점수를 가진 Pi를 선택하여 계산한다(Equation 1).
- 검색은 원래 질의가 아닌 분해된 추론 단계에 기반하므로 길거나 복잡한 프롬프트에서도 충실한 추론이 가능하다.
- RR을 LLM의 학습이나 미세튜닝이 필요 없는 후처리 단계로 평가한다.
- 세 가지 추론 작업과 다양한 지식 base(Wikipedia, Wikidata, WordNet, ConceptNet)에서 실험하고 제로샷, 패스트샷, CoT, 자기 일관성(Self-consistency) 베이스라인과 비교한다.
실험 결과
연구 질문
- RQ1RR이 추가 학습 없이도 다양한 추론 작업에서 설명의 충실도와 예측 정확도를 향상시키는가?
- RQ2추론 단계에 기반한 분해 기반 검색이 질의 기반 검색보다 지식 증강에 더 효과적인가?
- RQ3RR이 일반상식, 시간적 추론, 표 형식 추론에서 서로 다른 외부 지식 소스와 함께 어떤 성능을 보이는가?
- RQ4실무에서 RR의 절충점 및 한계는 무엇인가?
주요 결과
- RR은 추가 학습 없이 일반상식, 시간적 추론, 표 형식 추론에서 일관되게 모든 베이스라인을 능가한다.
- 분해 기반 검색이 질의 기반 검색보다 정확도와 충실도 측면에서 더 나은 결과를 낸다.
- 외부 지식을 RR과 함께 사용하면 설명의 충실도와 예측 정확도 모두에 걸쳐 개선된다.
- RR은 평가된 세 작업 모두에서 CoT 프롬프팅 및 자기 일관성(Self-consistency)보다 높은 정확도를 달성한다.
- 다양한 LM 크기에서도 효과가 유지되어 모델 규모에 대한 강건성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.