Skip to main content
QUICK REVIEW

[論文レビュー] Inverse Scaling: When Bigger Isn't Better

Ian R. McKenzie, Alexander Lyzhov|arXiv (Cornell University)|Jun 15, 2023
Topic Modeling被引用数 22
ひとこと要約

本論文は、より大きな言語モデルが特定のタスクで効果を低下させる“inverse scaling”を示す証拠を提示します。Inverse Scaling Prizeコンテストを通じて11データセットと複数のモデルファミリーで特定され、強い事前知識、望ましくない模倣、分散タスク、偽の few-shot cues の4つの原因を分析し、LMの訓練と評価への含意を論じます。

ABSTRACT

Work on scaling laws has found that large language models (LMs) show predictable improvements to overall loss with increased scale (model size, training data, and compute). Here, we present evidence for the claim that LMs may show inverse scaling, or worse task performance with increased scale, e.g., due to flaws in the training objective and data. We present empirical evidence of inverse scaling on 11 datasets collected by running a public contest, the Inverse Scaling Prize, with a substantial prize pool. Through analysis of the datasets, along with other examples found in the literature, we identify four potential causes of inverse scaling: (i) preference to repeat memorized sequences over following in-context instructions, (ii) imitation of undesirable patterns in the training data, (iii) tasks containing an easy distractor task which LMs could focus on, rather than the harder real task, and (iv) correct but misleading few-shot demonstrations of the task. We release the winning datasets at https://inversescaling.com/data to allow for further investigation of inverse scaling. Our tasks have helped drive the discovery of U-shaped and inverted-U scaling trends, where an initial trend reverses, suggesting that scaling trends are less reliable at predicting the behavior of larger-scale models than previously understood. Overall, our results suggest that there are tasks for which increased model scale alone may not lead to progress, and that more careful thought needs to go into the data and objectives for training language models.

研究の動機と目的

  • 大規模言語モデル(LM)におけるinverse scalingを公的コンテストデータセットを用いて動機づけ・定量化する。
  • モデル系列全体でinverse scalingを駆動する頑健なタスクカテゴリーと基盤となるメカニズムを特定する。
  • LMの事前学習と評価における緩和戦略を情報提供するため、アクセス可能なデータを提供する。

提案手法

  • OpenAI、Anthropic、DeepMindのモデル系列に対するゼロショットおよび数-shot性能を評価する公開コンテスト(Inverse Scaling Prize)を実施。
  • タスクごとに少なくとも300例を用い、分類損失と配列確率という2つの評価指標でタスク性能を評価する。
  • Inverse Scalingの4つの想定理由(Strong Prior、Unwanted Imitation、Distractor Task、Spurious Few-Shot)を特定するため、受賞タスクを分析する。
  • アーキテクチャや事前学習体制を越えてinverse scalingの傾向の頑健性を検証するため、 held-outモデル(民間AnthropicおよびDeepMindモデル)を評価する。
  • 複製とさらなる研究のために inversescaling.com/data にCC BY 4.0のもと公開データを提供する。
Figure 1: Left, GPT-4 answering an example from Resisting Correction incorrectly by fixing the spelling error (§ 3.1.1 ). Right, the average scaling trend across 10 tasks, excluding Prompt Injection (§ 3.1.4 ), which uses a different metric.
Figure 1: Left, GPT-4 answering an example from Resisting Correction incorrectly by fixing the spelling error (§ 3.1.1 ). Right, the average scaling trend across 10 tasks, excluding Prompt Injection (§ 3.1.4 ), which uses a different metric.

実験結果

リサーチクエスチョン

  • RQ1より大きなLMは、複数のモデル系統と学習体制にまたがる curatedタスクでinverse scalingを示すのか。
  • RQ2次トークン予測における主要な失敗モードはinverse scalingを駆動するのか。
  • RQ3zero-shotとfew-shot、およびモデルチェックポイントの異なる評価設定に対して、inverse scalingの傾向は頑健か。
  • RQ4提案された4つの原因を特定することは、データ選択、目的設計、事後訓練調整の緩和策に情報を提供できるのか。

主な発見

タスク# 例人間の合意度タイプ
Resisting Correction7,344100.0Strong Prior
Memo Trap936100.0Strong Prior
Redefine1,244100.0Strong Prior
Prompt Injection*1,000100.0Strong Prior
Modus Tollens1,23698.8Unwanted Imitation
Pattern Match Suppression1,428100.0Distractor Task
NeQA30098.0Distractor Task
Sig Figs20,89799.5Distractor Task
Into the Unknown1,82498.0Distractor Task
Hindsight Neglect315100.0Spurious Few-Shot
Repetitive Algebra1,000100.0Spurious Few-Shot
  • inverse scalingは、評価者の高い人間同意とともに11タスクで示された。訓練計算量は幅広く、10^18から10^23 FLOPsの範囲。
  • 4つの原因がinverse scalingを説明する:Strong Prior、Unwanted Imitation、Distractor Task、Spurious Few-Shot demonstrations。
  • いくつかのタスクではスケーリングが逆U型またはU型となり、より大きなスケールで傾向が逆転したり悪化することがある。
  • RLHF/FeedMEにおけるStrong Priorタスクなど、特定のタスクで指示順守のファインチューニングがinverse scalingを悪化させる可能性がある。
  • データセットとタスクはさらなる研究と再現を可能にするよう公に公開された。
Figure 2: Scaling behavior for the Resisting Correction (left, § 3.1.1 ) and Memo Trap (right, § 3.1.2 ) tasks. Resisting Correction tests whether LMs will repeat a given ungrammatical sentence verbatim when instructed to do so. Memo Trap tests whether LMs will be able to produce a variation on a co
Figure 2: Scaling behavior for the Resisting Correction (left, § 3.1.1 ) and Memo Trap (right, § 3.1.2 ) tasks. Resisting Correction tests whether LMs will repeat a given ungrammatical sentence verbatim when instructed to do so. Memo Trap tests whether LMs will be able to produce a variation on a co

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。