Skip to main content
QUICK REVIEW

[論文レビュー] A General Language Assistant as a Laboratory for Alignment

Amanda Askell, Yuntao Bai|arXiv (Cornell University)|Dec 1, 2021
Topic Modeling参考文献 32被引用数 27
ひとこと要約

本論文は単純なベースラインプロンプティングを調査し、模倣学習、二値識別、ランキング付き好みモデル化を比較して、人間の価値観に沿った一般的な言語アシスタントを整合させる。プロンプティングはサイズとともにスケールすること、ランキングデータで好みモデル化がしばしば模倣学習を上回ることを発見する。さらにサンプル効率を改善するための事前訓練段階(PMP)を導入。

ABSTRACT

Given the broad capabilities of large language models, it should be possible to work towards a general-purpose, text-based assistant that is aligned with human values, meaning that it is helpful, honest, and harmless. As an initial foray in this direction we study simple baseline techniques and evaluations, such as prompting. We find that the benefits from modest interventions increase with model size, generalize to a variety of alignment evaluations, and do not compromise the performance of large models. Next we investigate scaling trends for several training objectives relevant to alignment, comparing imitation learning, binary discrimination, and ranked preference modeling. We find that ranked preference modeling performs much better than imitation learning, and often scales more favorably with model size. In contrast, binary discrimination typically performs and scales very similarly to imitation learning. Finally we study a `preference model pre-training' stage of training, with the goal of improving sample efficiency when finetuning on human preferences.

研究の動機と目的

  • 有用性、正直さ、無害性(HHH)に焦点を当てた、整合された汎用テキストベースのアシスタントを定義する。
  • ベースライン整合手法としてのプロンプティングを評価し、そのスケーリング特性を評価する。
  • 模倣学習、二値識別、ランキング付き好みモデル化の比較。
  • PMPステージを評価し、サンプル効率と移転を改善。
  • 大規模言語モデルへの適用性のための実用的な洞察を提供。

提案手法

  • モデルと対話し、人間のフィードバックでA/Bテストを実施するためにオープンエンドな自然言語対話を使用する。
  • 単純なHHHプロンプトとコンテキスト蒸留バリアントを適用してプロンプティング効果を研究する。
  • 三つの学習目標を比較する: 模倣学習、二値識別、ランキング付き好みモデル化を、複数データセットで。
  • 10Mから52Bのノン埋め込みパラメータの数でモデルスケーリング傾向を調査する。
  • Stack Exchange、Reddit、Wikipediaの編集データを用いたデータで、対象タスクでファインチューニングする前のPMPを導入する。

実験結果

リサーチクエスチョン

  • RQ1ナイーブなプロンプティングは整合性の実用的なベースラインを提供するか、モデルサイズとともにスケールするか?
  • RQ2模倣学習、二値識別、ランキング付き好みモデル化は性能とスケーラビリティでどう比較される?
  • RQ3PMP段階はサンプル効率と下流タスクへの好みモデルの移転を改善できるか?
  • RQ4プロンプティングとコンテキスト蒸留は、モデルサイズを跨いで毒性と真実性にどんな影響を与えるか?

主な発見

  • プロンプトは整合性評価を大きく改善し、大規模モデルに対して整合コストがほとんどかからない。
  • ランキング付き好みモデル化は、ランキングデータセットで模倣学習を上回り、モデルサイズが大きくなるにつれてより良くスケールする。一方、二値識別は模倣と同程度のスケーリングを示す。
  • コンテキスト蒸留はしばしばプロンプトと同等の効果を発揮し、プロンプト長の制限を緩和することができる。
  • PMPは下流タスクでのファインチューニング時にサンプル効率と移転を大幅に改善し、場合によって非PMPベースラインを上回る。
  • プロンプトを用いた大規模モデルは毒性を低減し、整合挙動を改善する。HHHプロンプトは複数の指標で性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。