[논문 리뷰] Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
이 논문은 BIG-Bench Hard (BBH)를 도입한다. 이는 23개 과제로 구성된 하위집합으로, 모델이 평균 인간 평가자보다 뒤처졌으며, chain-of-thought prompting (CoT)이 Codex 및 PaLM과 같은 대형 모델이 많은 과제에서 인간의 평균치를 능가하도록 한다는 것을 보여주며, CoT는 규모 의존적 능력으로 등장한다.
BIG-Bench (Srivastava et al., 2022) is a diverse evaluation suite that focuses on tasks believed to be beyond the capabilities of current language models. Language models have already made good progress on this benchmark, with the best model in the BIG-Bench paper outperforming average reported human-rater results on 65% of the BIG-Bench tasks via few-shot prompting. But on what tasks do language models fall short of average human-rater performance, and are those tasks actually unsolvable by current language models? In this work, we focus on a suite of 23 challenging BIG-Bench tasks which we call BIG-Bench Hard (BBH). These are the task for which prior language model evaluations did not outperform the average human-rater. We find that applying chain-of-thought (CoT) prompting to BBH tasks enables PaLM to surpass the average human-rater performance on 10 of the 23 tasks, and Codex (code-davinci-002) to surpass the average human-rater performance on 17 of the 23 tasks. Since many tasks in BBH require multi-step reasoning, few-shot prompting without CoT, as done in the BIG-Bench evaluations (Srivastava et al., 2022), substantially underestimates the best performance and capabilities of language models, which is better captured via CoT prompting. As further analysis, we explore the interaction between CoT and model scale on BBH, finding that CoT enables emergent task performance on several BBH tasks with otherwise flat scaling curves.
연구 동기 및 목표
- BIG-Bench에서 현재의 언어 모델에게 특히 어려운 과제 식별(BBH).
- 표준 Few-shot prompting을 넘어 CoT prompting이 성능 개선을 가져오는지 여부 평가.
- 모델 규모가 여러 모델 가족에 걸쳐 CoT prompting과 어떻게 상호작용하는지 분석.
- 추가 연구를 위한 공개 BBH 벤치마크 및 prompting 데이터를 제공.
제안 방법
- 데이터 품질, 과제 유형, 인간 기반 기준의 기준으로 BIG-Bench 과제를 필터링하여 BBH를 정의하고 결과적으로 23개 과제를 도출한다.
- Codex, InstructGPT, PaLM 등 여러 모델 가족에 대해 표준 정답-전용 Few-shot prompting과 chain-of-thought (CoT) prompting을 비교한다.
- CoT를 사용하고 프롬프트 문구로 “let’s think step-by-step”를 사용한 세 가지 예시를 사용한다.
- 그리디 디코딩과 정확도 매칭(정답-매칭)으로 다지선다/정확 매칭 과제를 평가한다.
- 모델 크기에 따른 성능 스케일링과 CoT prompting 아래에서의 emergent 과제 능력을 분석한다.
실험 결과
연구 질문
- RQ1표준 prompting으로는 어떤 BBH 과제가 평균 인간 평가자 성능 아래에 남아 있는가?
- RQ2CoT prompting이 BBH 과제의 성능을 개선하는가, 그리고 그 개선은 규모에 의존하는가?
- RQ3모델 규모가 커질 때 CoT prompting을 사용할 때 어떤 과제에서 emergent 성능이 나타나는가?
- RQ4더 큰 모델이어도 CoT prompting이 정답-전용 prompting을 능가하지 못하는 과제가 존재하는가?
주요 결과
- CoT prompting은 Codex가 23개 BBH 과제 중 17개에서 평균 인간 평가자 성능을 능가하도록 한다(정답-전용으로는 23개 중 5개 대비).
- PaLM 540B와 CoT prompting도 주목할 만한 이득을 보이며 여러 과제에서 평균 인간 평가자를 능가한다.
- CoT 이득은 모델 규모에 강하게 의존하며 충분히 큰 모델에서만 emergent 개선이 나타난다.
- 일부 과제에서는 CoT가 개선을 가져오지 못하거나 정답-전용 prompting보다 못하는 경우도 있어 CoT의 과제 의존 한계를 강조한다.
- 일부 과제가 정답-전용 prompting으로는 평탄하게 스케일링되었지만, CoT를 적용하면 모델이 커짐에 따라 해결 가능해지는 emergent 능력이 나타난다.
- CoT prompting은 다단계 및 알고리즘 과제에서 이점이 크고 일부 세계지식 과제에서는 성능 이득이 혼재한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.