QUICK REVIEW

[논문 리뷰] The Falcon Series of Open Language Models

Ebtesam Almazrouei, Hamza Alobeidli|arXiv (Cornell University)|2023. 11. 28.

Topic Modeling인용 수 112

한 줄 요약

Falcon 시리즈는 대형 필터링된 웹 데이터 세트(RefinedWeb)로 학습된 7B, 40B, 180B 오픈-디코더 LLM을 제시하며, Falcon-180B는 PaLM-2 Large에 근접하고 GPT-3.5/4와 경쟁력 있으며, 동시에 오픈 사이언스를 촉진하기 위해 모델과 데이터를 공개한다.

ABSTRACT

We introduce the Falcon series: 7B, 40B, and 180B parameters causal decoder-only models trained on a diverse high-quality corpora predominantly assembled from web data. The largest model, Falcon-180B, has been trained on over 3.5 trillion tokens of text--the largest openly documented pretraining run. Falcon-180B significantly outperforms models such as PaLM or Chinchilla, and improves upon concurrently developed models such as LLaMA 2 or Inflection-1. It nears the performance of PaLM-2-Large at a reduced pretraining and inference cost, making it, to our knowledge, one of the three best language models in the world along with GPT-4 and PaLM-2-Large. We report detailed evaluations, as well as a deep dive into the methods and custom tooling employed to pretrain Falcon. Notably, we report on our custom distributed training codebase, allowing us to efficiently pretrain these models on up to 4,096 A100s on cloud AWS infrastructure with limited interconnect. We release a 600B tokens extract of our web dataset, as well as the Falcon-7/40/180B models under a permissive license to foster open-science and accelerate the development of an open ecosystem of large language models.

연구 동기 및 목표

7B, 40B, 180B 매개변수를 갖는 오픈 디코더-전용 LLM의 확장 가능한 프리트레이닝을 시연한다.
필터링 및 중복 제거를 거친 대규모 웹 데이터가 자연어 제로샷 작업에서 큐레이션된 데이터셋과 대등하거나 더 우수하다는 점을 보여준다.
대형 클라우드 인프라에서 효율적인 프리트레이닝을 가능하게 하는 설계 선택 및 맞춤 하드웨어/소프트웨어 스택을 설명한다.
개방 과학과 생태계 성장을 촉진하기 위해 모델과 방대한 웹 데이터 추출본을 공개한다.

제안 방법

RefinedWeb 상의 최대 3,500B 토큰에서 세 가지 인과 디코더-전용 모델(Falcon-7B, Falcon-40B, Falcon-180B)을 학습한다.
제한된 인터커넥트 환경에서 최대 4,096개의 A100 GPU를 사용하기 위해 3D 병렬성 및 옵티마이저 샤딩이 적용된 맞춤 분산 학습을 사용한다.
다중쿼리, 로터리-대 ALiBi, 메모리 절약 기법 등의 아키텍처 개선과 엄격한 하이퍼파라미터 검증을 채택한다.
품질과 범위를 극대화하기 위해 필터링 및 중복 제거를 포함한 Web 데이터를 강조하는 데이터 파이프라인으로 프리트레이닝한다.
Falcon-7B/40B/180B와 RefinedWeb의 600B-토큰 추출본을 우호적인 라이선스 하에 공개하여 재현성과 오픈 사이언스를 가능하게 한다.

실험 결과

연구 질문

RQ1큐레이션된 코퍼스에서 학습된 모델의 제로샷 성능과 유사하거나 이를 능가하는 수준으로, 매우 필터링되고 중복 제거된 웹 데이터만으로도 가능할까?
RQ2강력한 웹 기반의 기준선에 추가로 큐레이션된 데이터가 자연어 제로샷 성능에 미치는 영향은 무엇인가?
RQ3제한된 다국어 데이터 또는 코드 데이터의 추가가 영어 성능을 악화시키는가, 그렇다면 어느 정도까지인가?
RQ4대규모 프리트레이닝에서 하드웨어 효율성과 확장성을 극대화하는 아키텍처/데이터 파이프라인 선택은 무엇인가?
RQ5모델과 데이터의 오픈 릴리스가 오픈 연구와 생태계 개발에 어떤 영향을 미치는가?

주요 결과

Falcon-180B가 광범위한 작업군에서 1샷 평가에서 PaLM이나 Chinchilla를 크게 능가하고 PaLM-2 Large에 근접한다.
Falcon-180B는 PaLM-2 Large의 성능에 근접하면서도 프리트레이닝 및 추론 비용이 더 낮아, 최상위 오픈 모델 및 세계적 수준의 모델 중 하나로 자리매김한다.
RefinedWeb(필터링+중복 제거 웹 데이터)은 작은 규모의 자연어 제로샷 작업에서 큐레이션된 데이터셋(The Pile) 및 다른 웹 데이터세트(C4, OSCAR)보다 우수하며, 필터링과 중복 제거가 결정적이다.
강력한 웹 기준선 대신 큐레이션 데이터를 추가하는 경우 제로샷 성능이 일반적으로 향상되기 어렵고, 특히 책/기술 데이터에서는 악화될 수 있으며, 대화 데이터는 비교적 안정적이다.
제한된 다국어 또는 코드 데이터의 도입(5-10%)은 영어 성능에 큰 악영향을 주지 않으며, 교차 도메인 전이는 상당히 견고하다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.