[논문 리뷰] Large Language Models Struggle to Learn Long-Tail Knowledge
본 논문은 대형 언어 모델의 사실 지식이 사전 학습 데이터에서 관련 문서의 편재도에 어떻게 의존하는지 조사하고, 엔티티 연결된 문서 수를 사용해 상관관계와 인과 효과를 보여주며, 해결책으로 검색 보강을 탐구한다.
The Internet contains a wealth of knowledge -- from the birthdays of historical figures to tutorials on how to code -- all of which may be learned by language models. However, while certain pieces of information are ubiquitous on the web, others appear extremely rarely. In this paper, we study the relationship between the knowledge memorized by large language models and the information in pre-training datasets scraped from the web. In particular, we show that a language model's ability to answer a fact-based question relates to how many documents associated with that question were seen during pre-training. We identify these relevant documents by entity linking pre-training datasets and counting documents that contain the same entities as a given question-answer pair. Our results demonstrate strong correlational and causal relationships between accuracy and relevant document count for numerous question answering datasets (e.g., TriviaQA), pre-training corpora (e.g., ROOTS), and model sizes (e.g., 176B parameters). Moreover, while larger models are better at learning long-tail knowledge, we estimate that today's models must be scaled by many orders of magnitude to reach competitive QA performance on questions with little support in the pre-training data. Finally, we show that retrieval-augmentation can reduce the dependence on relevant pre-training information, presenting a promising approach for capturing the long-tail.
연구 동기 및 목표
- 사실 기반 질문에 답하는 능력이 관련 엔티티를 포함하는 사전 학습 데이터의 양과 어떻게 관련되는지 조사한다.
- 엔티티 연결을 통해 관련 사전 학습 문서를 식별하여 대규모 말뭉치에서 지식 노출을 정량화한다.
- 모델 크기와 사전 학습 데이터 규모가 롱테일 지식 학습을 설명하는지 평가한다.
- 희귀한 사전 학습 정보에 대한 의존도를 줄이는 방법으로 검색 보강을 검토한다.
제안 방법
- 주요 질문/답변 엔티티를 사전 학습 데이터 세트의 문서에 매핑하기 위한 확장 가능한 엔티티 연결 파이프라인을 구축한다 (The Pile, ROOTS, C4, OpenWebText, Wikipedia).
- 질문과 답변 엔티티가 공존하는 문서를 세어 각 QA 쌍의 ‘관련 문서’를 식별한다.
- Ex-Act 매치를 사용하여 TriviaQA와 Natural Questions에 대해 4샷 설정으로 오픈 도메인 QA 모델(GPT-Neo, BLOOM, GPT-3)을 평가하고, 정확도를 관련 문서 수와 비교 분석한다.
- 일부 질문에 대해 모든 관련 문서를 제거하여 반사실적 재학습을 수행하고 문서 수와 정확도 사이의 인과 관계를 테스트한다.
- 희귀한 사실에 대한 영향에서 모델 크기, 데이터 규모의 확장 효과와 오라클 및 BM25 검색 기반의 검색 보강을 탐구한다.
실험 결과
연구 질문
- RQ1주어진 질문과 관련된 사전 학습 문서의 수가 LM의 QA 정확도와 어떤 상관관계를 보이는가?
- RQ2관찰된 상관관계가 인과관계인가, 즉 관련 사전 학습 문서를 제거하면 QA 성능이 저하되는가?
- RQ3모델 크기와 사전 학습 데이터 규모가 롱테일 지식 학습을 얼마나 향상시키는가?
- RQ4검색 보강이 희귀한 사실에 대한 사전 학습 데이터 의존도를 완화시킬 수 있는가?
- RQ5관련 문서를 식별하는 대체 경량 방법이 공기발생(co-occurrence 기반 접근법)만큼 QA 성능을 설명하는가?
주요 결과
- QA 정확도는 데이터셋과 모델 전반에 걸쳐 관련 사전 학습 문서 수와 강하게 상관관계가 있다(예: TriviaQA의 BLOOM-176B).
- 반사실적 재학습은 관련 문서를 제거하면 많은 관련 문서를 가진 질문에서 정확도가 저하됨을 보여주어 인과적 연결을 시사한다.
- 모델 크기는 희귀 사실 QA 성능과 강한 로그-선형 관계가 있어 롱테일 질문에서 강력한 기준선을 따라잡으려면 막대한 매개변수 수가 필요함을 시사한다.
- 검색 보강은 특히 희귀 질문에서 성능을 크게 개선하고 사전 학습 데이터 의존도를 줄일 수 있다.
- 오라클 검색은 희귀 사례에서 정확도를 극적으로 향상시키고, BM25 기반 검색은 문서 수에 대한 잔류 의존도가 경미한 수준에서 개선을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.