QUICK REVIEW

[論文レビュー] Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets

Irene Solaiman, Christy Dennison|arXiv (Cornell University)|Jun 18, 2021

Topic Modeling参考文献 20被引用数 37

ひとこと要約

PALMSは、事前に定義された目標値に言語モデルを合わせるため、値をターゲットとしたデータセットを使用した反復的ファインチューニングプロセスであり、人間評価と毒性指標を通じてGPT-3サイズ全体で評価される。大きいモデルほど効果が高い。

ABSTRACT

Language models can generate harmful and biased outputs and exhibit undesirable behavior according to a given cultural context. We propose a Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets, an iterative process to significantly change model behavior by crafting and fine-tuning on a dataset that reflects a predetermined set of target values. We evaluate our process using three metrics: quantitative metrics with human evaluations that score output adherence to a target value, toxicity scoring on outputs; and qualitative metrics analyzing the most common word associated with a given social category. Through each iteration, we add additional training dataset examples based on observed shortcomings from evaluations. PALMS performs significantly better on all metrics compared to baseline and control models for a broad range of GPT-3 language model sizes without compromising capability integrity. We find that the effectiveness of PALMS increases with model size. We show that significantly adjusting language model behavior is feasible with a small, hand-curated dataset.

研究の動機と目的

有害な出力の削減とLMの行動を文化的価値に整合させる動機づけ。
事前に定義された値へモデルの行動を誘導する反復的なデータセット主導のファインチューニングプロセスを提案する。
人間の判断、毒性スコアリング、定性的分析を含む複数の指標を用いてPALMSを評価する。
モデルサイズが価値整合性の効果に与える影響を示す。

提案手法

ターゲット値を反映するデータセット上でモデルをファインチューニングする反復的なPALMSプロセスを開発する。
評価から観察された欠点に基づいてトレーニングデータを作成・拡張する。
定量的指標と人間評価、毒性スコアリング、定性的語結合分析の組み合わせを用いる。
いくつものGPT-3サイズにわたってPALMSベースのモデルを基線モデルおよびコントロールモデルと比較する。
小さく手作りのデータセットでもPALMSが意味のある行動調整をもたらすことを示す。

実験結果

リサーチクエスチョン

RQ1PALMSは言語モデル出力において事前に定義された目標値の遵守を改善するのか？
RQ2PALMSはモデルサイズに応じて毒性と有害な出力にどう影響するのか？
RQ3PALMSの有効性はより大きな言語モデルでスケールするのか？
RQ4小さく手作りのデータセットで能力を損なうことなく大きな価値整合を達成できるのか？

主な発見

PALMSは、基準モデルおよびコントロールモデルと比較して、広範なGPT-3サイズにおいて評価されたすべての指標で有意に改良を示す。
PALMSの有効性はモデルサイズとともに高まる。
小さく手作りのデータセットで言語モデルの行動を顕著に調整できる。
評価には人間の判断を含む定量的指標、毒性スコアリング、語結合の定性的分析が含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。