QUICK REVIEW

[논문 리뷰] Reliable, Adaptable, and Attributable Language Models with Retrieval

Akari Asai, Zexuan Zhong|arXiv (Cornell University)|2024. 03. 05.

Topic Modeling인용 수 5

한 줄 요약

이 위치 논문은 파라메트릭 LMs를 대체하기 위해 검색 강화 언어 모델을 옹호하며, 신뢰성, 적응성, 귀속성의 이점과 아키텍처, 훈련, 인프라 발전을 통한 채택 장벽 극복 로드맵을 제시한다.

ABSTRACT

Parametric language models (LMs), which are trained on vast amounts of web data, exhibit remarkable flexibility and capability. However, they still face practical challenges such as hallucinations, difficulty in adapting to new data distributions, and a lack of verifiability. In this position paper, we advocate for retrieval-augmented LMs to replace parametric LMs as the next generation of LMs. By incorporating large-scale datastores during inference, retrieval-augmented LMs can be more reliable, adaptable, and attributable. Despite their potential, retrieval-augmented LMs have yet to be widely adopted due to several obstacles: specifically, current retrieval-augmented LMs struggle to leverage helpful text beyond knowledge-intensive tasks such as question answering, have limited interaction between retrieval and LM components, and lack the infrastructure for scaling. To address these, we propose a roadmap for developing general-purpose retrieval-augmented LMs. This involves a reconsideration of datastores and retrievers, the exploration of pipelines with improved retriever-LM interaction, and significant investment in infrastructure for efficient training and inference.

연구 동기 및 목표

할루시네이션(환각), 검증 가능성, 그리고 적응성 문제를 해결하기 위해 파라메트릭 LMs에서 검색 강화 LMs로의 전환을 촉진한다.
오류 감소와 더 나은 귀속을 가능하게 하는 검색 강화 LMs의 강점을 특징지는다.
채택 장벽을 식별하고 아키텍처, 훈련, 인프라 전반에 걸친 로드맵을 제안한다.
데이터스토어와 리트리버가 더 넓은 작업 적용성을 지원하도록 재설계되어야 하는 방법을 논의한다.

제안 방법

추론 시 외부 데이터스토어를 사용하는 두 구성 요소 시스템(리트리버와 LM)으로 검색 강화 LMs를 정의한다.
아키텍처의 분류체계(입력 보강, 중간 융합, 출력 보간)와 검색된 텍스트의 통합 및 검색 방식에 대해 제시한다.
독립적/순차적 훈련과 조인트 훈련 등 학습 패러다임과 데이터스토어 관리 및 색인에 대한 실용적 고려사항을 논의한다.
검색 활용 시 사실 오류 감소, 더 나은 귀속, 향상된 적응력을 보여주는 선행 연구의 실증적 발견을 검토한다.
세 가지 중점 영역으로 재고- 관련성 및 데이터스토어 재고, 리트리버-LM 상호작용 강화, 확장 가능한 인프라 구축 로드맵을 제안한다.

Figure 1: Parametric LMs (top) internalize large-scale text data in their parameters via massive pre-training, while retrieval-augmented LMs (bottom) incorporate text retrieved from a massive datastore at test time.

실험 결과

연구 질문

RQ1지식 집약적 작업을 넘어 어떤 것이 유용한 검색된 텍스트인지, 그리고 더 넓은 작업을 지원하도록 데이터스토어를 어떻게 설계해야 하는가?
RQ2피상적 프롬프트 한계를 극복하기 위해 리트리버와 LM 간의 더 깊은 상호작용을 어떻게 촉진할 수 있는가?
RQ3검색 강화 LMs를 효과적으로 확장하기 위해 필요한 인프라 및 훈련 전략은 무엇인가?
RQ4데이터스토어 설계 및 검색 전략이 도메인 간 귀속성과 적응성을 어떻게 향상시킬 수 있는가?

주요 결과

검색 강화 LMs는 매 memorized 파라미터가 아닌 외부 텍스트를 활용함으로써 사실 오류를 줄이고 사실성을 향상시킬 수 있다.
추론 중에 검색된 증거는 사후 설명과 비교하여 더 나은 귀속을 가능하게 한다.
이 모델은 검색된 텍스트의 사용 여부를 선택할 수 있는 유연성을 제공하며 데이터스토어 업데이트를 통해 새로운 데이터 분포에 쉽게 적응할 수 있다.
데이터스토어 설계 및 검색 전략은 도메인 맞춤화를 가능하게 하며 일부 지식 작업에서 도메인 특화 파인튜닝보다 더 나은 성과를 낼 수 있다.
메모리를 데이터스토어로 오프로드하여 매개변수 효율성을 달성할 수 있으며, 더 작은 LM이 더 큰 파라메트릭 모델과 경쟁할 수 있다.

Figure 2: Taxonomy of architectures of retrieval-augmented LMs.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.