[논문 리뷰] When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories
본 논문은 LMs가 얼마나 많은 사실 지식을 암기하는지, 인기도와 관계 유형이 기억에 어떤 영향을 미치는지, 검색 보강 메모리와 적응 검색이 오픈 도메인 QA의 성능과 효율을 어떻게 향상시킬 수 있는지 분석한다.
Despite their impressive performance on diverse tasks, large language models (LMs) still struggle with tasks requiring rich world knowledge, implying the limitations of relying solely on their parameters to encode a wealth of world knowledge. This paper aims to understand LMs' strengths and limitations in memorizing factual knowledge, by conducting large-scale knowledge probing experiments of 10 models and 4 augmentation methods on PopQA, our new open-domain QA dataset with 14k questions. We find that LMs struggle with less popular factual knowledge, and that scaling fails to appreciably improve memorization of factual knowledge in the long tail. We then show that retrieval-augmented LMs largely outperform orders of magnitude larger LMs, while unassisted LMs remain competitive in questions about high-popularity entities. Based on those findings, we devise a simple, yet effective, method for powerful and efficient retrieval-augmented LMs, which retrieves non-parametric memories only when necessary. Experimental results show that this significantly improves models' performance while reducing the inference costs.
연구 동기 및 목표
- LM의 사실 지식 암기에 영향을 주는 요인(주제의 인기도와 관계 유형)을 이해한다.
- 파라메트릭 지식을 보완하는 비파라메트릭 기억(검색)의 효과를 평가한다.
- 비용 절감을 통해 파라메트릭과 비파라메트릭 기억을 최적하게 결합할 수 있는 적응 검색 여부를 조사한다.
- 대규모 오픈 도메인 QA 벤치마크 PopQA와 EntityQuestions에서의 적응 검색 평가를 수행한다.
제안 방법
- 미세 조정 없이 여러 크기의 10개의 오픈 도메인 LMs(OPT, GPT-Neo, GPT-3)를 평가한다.
- Wikidata 및 Wikipedia의 인기도에서 파생된 장난스러운 꼬리 엔티티를 포함하는 14k 질문의 오픈 도메인 QA 데이터셋인 PopQA를 도입한다.
- 모델 간 주제 인기도와 관계 유형에 따른 암기를 분석한다.
- BM25, Contriever, GenRead를 사용하여 비파라메트릭 기억으로 프롬프트를 보강하는 검색 보강 LMs를 테스트한다.
- 관계 유형별 인기도 임계값에 따라 선택적으로 검색하여 성능과 효율성을 최적화하는 적응 검색을 평가한다.
- 정확도, 지연(latency), API 비용 등 성능 및 효율성 지표를 보고한다.
실험 결과
연구 질문
- RQ1RQ1: LMs가 얼마나 많은 사실 지식을 암기하고, 암기에 영향을 미치는 요인은 무엇인가?
- RQ2RQ2: 비파라메트릭 기억이 파라메트릭 기억의 한계를 어느 정도 완화할 수 있는가?
- RQ3RQ3: 비파라메트릭 및 파라메트릭 기억을 적응적으로 결합하는 시스템을 구축할 수 있는가?
주요 결과
- 모델 간 주제 엔티티의 인기도와 암기 간 상관관계가 있으며, 더 큰 모델일수록 상관관계가 더 강하게 나타난다.
- 확대는 주로 인기 있는 지식의 암기를 향상시키며 꼬리 질문에 대한 이득은 제한적이다.
- 검색 보강은 꼬리 지식의 성능을 크게 향상시키지만, 인기가 높은 엔티티에 대해 검색된 맥락이 모델을 오도하면 성능이 악화될 수 있다.
- 비파라메트릭 기억(BM25/Contriever)은 인기가 덜한 질문에서 비보강 LMs보다 우수하며, PopQA에서 Contriever가 일반적으로 더 나은 결과를 보인다; GenRead는 일부 대형 모델에 도움이 되지만 소형 모델에겐 효과가 덜하다.
- 적응 검색—관계 유형별 인기도 임계값에 따라 필요할 때만 검색—은 항상 검색하는 전략보다 우수하며, GenRead와 Contriever를 사용한 GPT-3 davinci-003에서 PopQA의 정확도 최대 46.5%를 달성한다.
- 적응 검색은 대형 LM의 경우 최대 약 9%의 지연 감소를, GPT-3 시나리오에서 API 비용을 최대 50%까지 감소시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.