[논문 리뷰] Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
본 논문은 BIG-bench를 소개합니다. 이는 204개 과제로 구성된 크고 다양한 벤치마크로, 132개 기관의 450명의 저자가 참여하여 현재 벤치마크를 넘어서는 언어 모델의 능력을 정량화하고 외삽하기 위한 것입니다. 밀집형과 희소형 트랜스포머를 규모에 따라 인간 평가자와 비교합니다.
Language models demonstrate both quantitative improvement and new qualitative capabilities with increasing scale. Despite their potentially transformative impact, these new capabilities are as yet poorly characterized. In order to inform future research, prepare for disruptive new model capabilities, and ameliorate socially harmful effects, it is vital that we understand the present and near-future capabilities and limitations of language models. To address this challenge, we introduce the Beyond the Imitation Game benchmark (BIG-bench). BIG-bench currently consists of 204 tasks, contributed by 450 authors across 132 institutions. Task topics are diverse, drawing problems from linguistics, childhood development, math, common-sense reasoning, biology, physics, social bias, software development, and beyond. BIG-bench focuses on tasks that are believed to be beyond the capabilities of current language models. We evaluate the behavior of OpenAI's GPT models, Google-internal dense transformer architectures, and Switch-style sparse transformers on BIG-bench, across model sizes spanning millions to hundreds of billions of parameters. In addition, a team of human expert raters performed all tasks in order to provide a strong baseline. Findings include: model performance and calibration both improve with scale, but are poor in absolute terms (and when compared with rater performance); performance is remarkably similar across model classes, though with benefits from sparsity; tasks that improve gradually and predictably commonly involve a large knowledge or memorization component, whereas tasks that exhibit "breakthrough" behavior at a critical scale often involve multiple steps or components, or brittle metrics; social bias typically increases with scale in settings with ambiguous context, but this can be improved with prompting.
연구 동기 및 목표
- 언어 모델의 현재 및 근미래 능력과 한계가 연구 및 사회적 영향에 미치는 영향에 대한 이해의 필요성 동기부여
- 기존 벤치마크를 넘어서는 새로운 능력과 잠재적 피해를 드러내기 위한 크고 다양하며 어려운 벤치마크를 개발
- 모델 성능을 규모에 따라 비교할 수 있는 인간 평가자 기준선 및 전문가 평가를 제공
- 모델 크기가 증가함에 따라 성능을 외삽해 돌파구를 예측하고 연구 방향을 안내
- 오픈 GitHub 기반 워크플로를 통한 과제 공개 기여 및 투명한 평가를 촉진
제안 방법
- 언어학, 수학, 일반상식 추론, 생물학, 물리학, 사회적 편향, 소프트웨어 개발 등 광범위한 204개 과제를 포함하는 BIG-bench를 생성
- 제로샷 및 소수샷 평가를 위한 JSON API 및 프로그래밍 가능 태스크를 정의
- 다양한 규모에서 BIG-G, BIG-G sparse, GPT-3 계열, PaLM 등 밀집형 및 희소형 트랜스포머 모델을 여섯 차례의 규모에서 평가
- 집계 분석을 위한 공통 0–100 척도으로 태스크 지표를 정규화
- 다양한 규모에서 모델 예측에 대한 보정 지표(예상 보정 오차, Brier 점수)를 계산
- 모델과 인간 간 차이를 평가하고 강력한 기준선을 확립하기 위해 인간 전문가 평가자를 포함
실험 결과
연구 질문
- RQ1모델 크기와 프롬프트(샷)에 따라 다양한 태스크에서 언어 모델의 집계 및 태스크별 성능이 어떻게 스케일링되는가?
- RQ2모델의 능력이 인간의 성능과 질적으로 다른가, 그리고 스케일링 경향이 잠재적 돌파구를 예측하는가?
- RQ3모델 보정 및 신뢰도가 규모와 어떻게 관련되며 이는 인간 평가자와 비교해 어떤가?
- RQ4대형-희소형 등 모델 클래스가 BIG-bench 태스크에서 성능과 효율성에 있어 차이가 있는가?
- RQ5현재 벤치마크의 한계는 미래의 능력 및 사회적 편향 역학을 얼마나 잘 포착하는가?
주요 결과
- 크기가 커지고 샷이 늘어나도 집계된 모델 성능은 향상되지만 BIG-bench 태스크에서 인간 성능에 비해 여전히 미달이다
- 스케일이 증가함에 따라 모델 보정은 개선되지만 태스크 전반에서 보정 점수는 여전히 불완전하다
- 모델 클래스(밀집 vs 희소)는 유사한 성능 경향을 보이며, 희소성은 일부 이점을 제공
- 일부 태스크는 지식/기억에 의한 점진적이고 예측 가능한 개선을 보이며, 다른 태스크는 임계 규모에서 다단계 추론이나 취약한 지표가 필요한 ‘돌파구’와 같은 특성을 보인다
- 사회적 편향은 모호한 맥락에서 규모에 따라 증가하는 경향이 있으며 프롬프트가 이를 완화할 수 있다
- 심지어 대형 언어 모델도 여전히 취약하고 비영어권 언어의 태스크 간 성능 차이가 존재한다
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.