QUICK REVIEW

[論文レビュー] Measuring Massive Multitask Language Understanding

Dan Hendrycks, Collin Burns|arXiv (Cornell University)|Sep 7, 2020

Topic Modeling参考文献 23被引用数 269

ひとこと要約

この論文は、57タスクのマルチタスクベンチマークを導入し、ゼロショットおよび少数ショットの言語モデルの理解を多様な領域で測定する。GPT-3のような大規模モデルはランダムより改善するが専門家レベルには及ばず、キャリブレーションと知識のギャップを示す。

ABSTRACT

We propose a new test to measure a text model's multitask accuracy. The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. To attain high accuracy on this test, models must possess extensive world knowledge and problem solving ability. We find that while most recent models have near random-chance accuracy, the very largest GPT-3 model improves over random chance by almost 20 percentage points on average. However, on every one of the 57 tasks, the best models still need substantial improvements before they can reach expert-level accuracy. Models also have lopsided performance and frequently do not know when they are wrong. Worse, they still have near-random accuracy on some socially important subjects such as morality and law. By comprehensively evaluating the breadth and depth of a model's academic and professional understanding, our test can be used to analyze models across many tasks and to identify important shortcomings.

研究の動機と目的

現実世界の多様な領域にわたる事前学習由来の知識の幅と深さを評価する。
ゼロショットおよび少数ショットの性能を評価して人間の学習に近づける。
タスク全体にわたるモデルの盲点とキャリブレーションの欠点を特定する。

提案手法

人文学・社会科学・STEM・その他の科目を横断する57タスクの選択式ベンチマークを作成する。
大規模言語モデル（GPT-3系）および転移微調整モデル（UnifiedQA）のゼロショット・少数ショット性能を評価する。
GPT-3の4サイズ（Small to X-Large）とテキスト・ツー・テキストバックボーンを持つUnifiedQAを使用する。
転移能力を測定し、誤誘導となる手掛かりを避けるために、タスクごとに開発・検証・テスト分割を提供する。

実験結果

リサーチクエスチョン

RQ1事前学習済みの言語モデルは、タスク固有の微調整なしで、さまざまな分野に跨る幅広い世界知識をどれだけ獲得し、適用できるのか？
RQ2モデルサイズと prompting 戦略（ゼロショット vs. 少数ショット）は、57タスク全体の性能にどう影響するか？
RQ3この広範なベンチマークで現在のモデルの共通の失敗モードとキャリブレーション特性は何か？
RQ4専門的な微調整（UnifiedQA）は、タスク間でGPT-3の少数ショットに対するギャップをどの程度埋められるか？

主な発見

Model	Humanities	Social Science	STEM	Other	Average
Random Baseline	25.0	25.0	25.0	25.0	25.0
RoBERTa	27.9	28.8	27.0	27.7	27.9
ALBERT	27.2	25.7	27.7	27.9	27.1
GPT-2	32.8	33.3	30.2	33.1	32.4
UnifiedQA	45.6	56.6	40.2	54.6	48.9
GPT-3 Small (few-shot)	24.4	30.9	26.0	24.1	25.9
GPT-3 Medium (few-shot)	26.1	21.6	25.6	25.5	24.9
GPT-3 Large (few-shot)	27.1	25.6	24.3	26.5	26.0
GPT-3 X-Large (few-shot)	40.8	50.4	36.7	48.8	43.9

GPT-3 175B は少数ショットモードで平均精度 43.9%、ランダムを大きく上回るが、すべてのタスクで専門家レベルには遠い。
UnifiedQA (11B) は平均精度 48.9%を達成し、パラメータ数が少ないにもかかわらずGPT-3系を上回る。
モデルの性能はタスク間で極端に偏っており、数学・物理・法学・倫理などではほぼ乱数と同等、他の分野では高い性能を示す。
GPT-3の信頼度推定はキャリブレーションが不十分で、ゼロショット設定で信頼度と正確性の間に最大で24ポイントの乖離がある。
最高評価のモデルでさえ、個々のタスクで専門家レベルの正確さに達せず、広範な知識ギャップと手続き的推論の限界を浮き彫りにしている。
計算集約的なタスクと規範的法倫理のタスクは、現在のモデルにとって特に難しい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。