[논문 리뷰] Improving language models by retrieving from trillions of tokens
Retro는 trillion-token 데이터베이스에서 검색 메커니즘을 자동 회귀 언어 모델에 보강하여 GPT-3/Jurassic-1과 같은 성능을 더 적은 파라미터로 달성하고 지식 집약적 다운스트림 작업을 가능하게 한다.
We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a $2$ trillion token database, our Retrieval-Enhanced Transformer (RETRO) obtains comparable performance to GPT-3 and Jurassic-1 on the Pile, despite using 25$ imes$ fewer parameters. After fine-tuning, RETRO performance translates to downstream knowledge-intensive tasks such as question answering. RETRO combines a frozen Bert retriever, a differentiable encoder and a chunked cross-attention mechanism to predict tokens based on an order of magnitude more data than what is typically consumed during training. We typically train RETRO from scratch, yet can also rapidly RETROfit pre-trained transformers with retrieval and still achieve good performance. Our work opens up new avenues for improving language models through explicit memory at unprecedented scale.
연구 동기 및 목표
- 검색을 통해 거대한 외부 메모리의 의존도를 줄이려는 동기 부여.
- retrieval를 확장 가능한 il로 삼아 trillions 토큰 규모로 확장하는 검색 기반 자동회귀 아키텍처를 개발.
- 다양한 모델 크기와 다운스트림 작업에서 검색이 일관된 이득을 제공하는지 입증.
- 미니멈 추가 연산으로 사전 학습된 모델에 Retro를 Retro-적용할 수 있음을 보여줌.
- 검색 시스템이 학습 데이터에 접근할 때 평가 누출 우려를 다루기 위한 접근 방법을 제시.
제안 방법
- 고정된 BERT 임베딩을 키로 사용하고 원시 텍스트 청크를 값으로 하는 텍스트 청크의 키-값 데이터베이스를 구성.
- 입력 시퀀스를 청크로 분할하고 각 청크를 데이터베이스에서 k-최근접 이웃으로 검색된 청크로 보강.
- 검색된 데이터를 청크형 교차 주의 메커니즘(Cca)을 갖춘 인코더-디코더 트랜스포머에 통합.
- 검색기를 학습시키지 않고도 대규모 검색이 가능하도록 고정된 BERT 기반 검색기를 사용.
- 이전 청크의 검색된 이웃으로 조건화된 자동회귀 목적어로 학습하여 인과관계 유지.
- 대규모 다국어 데이터(MassiveText)와 테스트 데이터(C4, Wikitext103, Pile)에서 평가하고 평가-청크 겹침을 통한 누출 효과를 분석.
실험 결과
연구 질문
- RQ1트릴리언 토큰 데이터베이스에서의 검색이 다양한 모델 크기에서 언어 모델 성능에 어떤 영향을 미치는가?
- RQ2검색 보강 모델이 파라미터 수를 줄여도 표준 벤치마크에서 GPT-3 및 Jurassic-1과 같은 baselines에 도달하거나 이를 능가할 수 있는가?
- RQ3데이터베이스 크기 또는 검색 이웃 수를 증가시키면 일관된 개선이 나타나는가, 한계는 무엇인가?
- RQ4Retro를 사전 학습된 트랜스포머에 최소한의 추가 연산으로 효과적으로 Retro-적용할 수 있는가?
- RQ5평가 데이터 누출이 검색-강화 모델의 성능에 어떤 영향을 미치는가?
주요 결과
- 2조 토큰 데이터베이스를 가진 Retro는 25배 적은 파라미터를 사용하더라도 Pile에서 GPT-3 및 Jurassic-1에 필적하는 성능을 제공한다.
- 모델 규모가 150M에서 7B 파라미터로 확장되어도 검색으로 인한 성능 향상은 일정하게 유지된다.
- 검색 데이터베이스 규모와 검색 이웃 수를 늘리면 성능이 향상되지만, 매우 큰 이웃 세트가 품질에 해를 끼칠 수 있는 지점이 있다.
- 학습 후 Wikitext103 및 Pile에서 최첨단 성능을 달성하고, 질의 응답과 같은 다운스트림 작업에 대해 미세 조정이 가능하다.
- 평가 누출 인식 방법론은 향상된 성능이 명시적 이웃 복사와 일반 지식 추출에서 비롯되며, 더 큰 데이터베이스와 더 많은 이웃은 더 큰 모델에서 이득을 증폭시킨다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.