QUICK REVIEW

[논문 리뷰] Measuring Massive Multitask Language Understanding

Dan Hendrycks, Collin Burns|arXiv (Cornell University)|2020. 09. 07.

Topic Modeling참고 문헌 23인용 수 269

한 줄 요약

이 논문은 다양한 도메인에 걸친 제로샷 및 푸샷 언어 모델 이해를 측정하기 위해 57-태스크 멀티태스크 벤치마크를 도입하며, GPT-3와 같은 대형 모델이 무작위 확률을 넘겨 개선하지만 여전히 전문가 수준의 성능에는 미치지 못하고 보정 및 지식 격차를 드러낸다.

ABSTRACT

We propose a new test to measure a text model's multitask accuracy. The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. To attain high accuracy on this test, models must possess extensive world knowledge and problem solving ability. We find that while most recent models have near random-chance accuracy, the very largest GPT-3 model improves over random chance by almost 20 percentage points on average. However, on every one of the 57 tasks, the best models still need substantial improvements before they can reach expert-level accuracy. Models also have lopsided performance and frequently do not know when they are wrong. Worse, they still have near-random accuracy on some socially important subjects such as morality and law. By comprehensively evaluating the breadth and depth of a model's academic and professional understanding, our test can be used to analyze models across many tasks and to identify important shortcomings.

연구 동기 및 목표

다양한 실제 도메인에서 사전 학습으로 축적된 지식의 폭과 깊이를 평가한다.
제로샷 및 푸샷 성능을 평가해 인간 학습에 근접한 능력을 모사한다.
다양한 태스크에서 모델의 맹점과 보정상의 한계를 식별한다.

제안 방법

인문학, 사회과학, STEM 및 기타 과목을 포괄하는 57-태스크 다지선다형 벤치마크를 만든다.
대형 언어 모델(GPT-3 변형)과 전이-미세조정 모델(UnifiedQA)의 제로샷 및 푸샷 성능을 평가한다.
네 가지 GPT-3 사이즈(Small에서 X-Large)와 텍스트-투-텍스트 백본을 사용하는 UnifiedQA를 활용한다.
교차 태스크 개발/검증/테스트 분할을 제공해 전이 능력을 측정하고 불필요한 단서를 피한다.

실험 결과

연구 질문

RQ1사전 학습된 언어 모델이 태스크-specific 미세조정 없이도 다양한 주제에 걸친 넓은 세계 지식을 학습하고 적용하는 정도는 어느 정도인가?
RQ2모델 크기와 프롬프트 전략(제로샷 대 푸샷)이 57개 태스크 전반의 성능에 어떤 영향을 미치는가?
RQ3이 광범위한 벤치마크에서 현재 모델의 일반적 실패 모드와 보정 특성은 무엇인가?
RQ4특화된 미세조정(UnifiedQA)이 태스크 간 GPT-3의 푸샷에 비해 격차를 얼마나 줄일 수 있는가?

주요 결과

모델	인문학	사회과학	STEM	기타	평균
무작위 기준선	25.0	25.0	25.0	25.0	25.0
RoBERTa	27.9	28.8	27.0	27.7	27.9
ALBERT	27.2	25.7	27.7	27.9	27.1
GPT-2	32.8	33.3	30.2	33.1	32.4
UnifiedQA	45.6	56.6	40.2	54.6	48.9
GPT-3 Small (few-shot)	24.4	30.9	26.0	24.1	25.9
GPT-3 Medium (few-shot)	26.1	21.6	25.6	25.5	24.9
GPT-3 Large (few-shot)	27.1	25.6	24.3	26.5	26.0
GPT-3 X-Large (few-shot)	40.8	50.4	36.7	48.8	43.9

GPT-3 175B는 푸샷 모드에서 평균 정확도 43.9%를 달성해 무작위보다 크게 높지만 모든 태스크에서 전문가 수준의 성능에는 미치지 못한다.
UnifiedQA(11B)는 평균 정확도 48.9%로 GPT-3 변형들보다 더 높은 성능을 보이며 적은 매개변 수에도 불구하고 우수하다.
모델의 성능은 태스크별로 크게 불균형하며, 특정 주제에서 강한 성과를 보이는 반면 수학, 물리학, 법학, 도덕성 같은 분야에서는 거의 무작위에 가깝다.
GPT-3의 신뢰도 추정은 보정이 잘 되지 않아 제로샷 설정에서 신뢰도와 정확도 간 차이가 최대 24퍼센트 포인트에 이른다.
최고의 모델들조차도 개별 태스크에서 전문가 수준의 정확도에 도달하지 못해 광범위한 지식 격차와 절차적 추론의 한계를 드러낸다.
계산 중심의 과제와 규범-법 도덕성 과제는 현재 모델에게 특히 도전적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.