QUICK REVIEW

[論文レビュー] Training Socially Aligned Language Models on Simulated Social Interactions

Ruibo Liu, Ruixin Yang|arXiv (Cornell University)|May 26, 2023

Topic Modeling被引用数 15

ひとこと要約

本論文は、Stable Alignment を紹介する。三段階のデータ中心フレームワークで、Sandbox環境のオフラインで模擬された社会的相互作用から社会的整合性を学習し、報酬モデルへの依存を低減し、敵対的プロンプトに対する頑健性を向上させる。

ABSTRACT

Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidly replicate their training corpus in isolation, leading to subpar generalization in unfamiliar scenarios and vulnerability to adversarial attacks. This work presents a novel training paradigm that permits LMs to learn from simulated social interactions. In comparison to existing methodologies, our approach is considerably more scalable and efficient, demonstrating superior performance in alignment benchmarks and human evaluations. This paradigm shift in the training of LMs brings us a step closer to developing AI systems that can robustly and accurately reflect societal norms and values.

研究の動機と目的

言語モデルにおける社会的整合性を動機づけて定義し、孤立ベースの訓練の限界を明らかにする。
アライメント用の豊富な相互作用データを収集するオフラインの模擬社会であるSandboxを提案する。
三段階（模倣、自己批判、再整合）と対比的嗜好最適化を組み込んだStable Alignmentを紹介する。
Stable Alignment が RLHF ベースおよび他のベースラインと比較して整合性ベンチマークと敵対的ロバスト性を改善することを示す。

提案手法

Back-Scatter データ収集を用いて、100 個の LM ベースのエージェント間の社会的相互作用をシミュレートする Sandbox を作成する。
比較、評価、詳しいフィードバック、反復的な修正など、多面的な相互作用データを記録する。
訓練用の169k件のアライメントサンプル（Imitation、Self-Critic、Realignment）を構築する。
Stage 2 で監視付きファインチューニング（SFT）と組み合わせて、バッチ内で高評価の回答へ最適化するための Contrastive Preference Optimization (CPO) を用いる。
三段階で訓練する：Imitation with CPO、Self-Critic with SFT、Realignment with CPO。
オンライン報酬モデル（RLHF）の必要性を排除するオフラインでデータ中心の訓練を提供する。

実験結果

リサーチクエスチョン

RQ1模擬的な社会的相互作用は、人間の価値観と整合させるためのスケーラブルな監督信号を LM に提供できるか？
RQ2三段階のデータ中心訓練体系は、報酬モデルベースの方法と比べて敵対的なプロンプトに対する頑健性を向上させるか？
RQ3異なる訓練段階は、ベンチマーク全体の整合性と安定性にどのように寄与するか？
RQ4模擬社会から学習した整合データは、多様な整合タスクやプロンプトへ転用可能か？

主な発見

Model	HH Alignment	HH-A Alignment	Moral Stories ACC	MIC ACC	ETHICS ACC	TruthfulQA MC1
LLaMA	4.34 1.4	3.28 1.3	0.46 0.8	0.38 1.3	0.41 1.5	0.28 1.2
Alpaca	5.49 1.3	2.52 1.5	0.40 1.1	0.42 1.4	0.39 1.8	0.30 1.5
Alpaca + SFT	6.31 1.2	3.49 1.7	0.47 0.9	0.54 1.2	0.51 1.6	0.34 1.6
TRLX	5.69 1.7	5.22 1.6	0.52 1.3	0.57 0.9	0.53 1.7	0.31 1.7
Chain-of-Hindsight	6.13 1.5	5.72 1.5	0.54 1.2	0.54 1.3	0.56 1.5	0.29 1.8
DPO	6.54 1.6	5.83 1.7	0.63 1.4	0.61 2.0	0.57 1.6	0.36 1.5
RRHF	6.40 1.5	6.24 1.6	0.74 1.5	0.67 1.6	0.63 1.7	0.38 1.6
Stable Alignment (IL+SC+RA)	7.35 1.6	8.23 1.4	0.78 1.4	0.73 1.7	0.65 1.6	0.53 1.5
Stable Alignment (IL+SC)	6.56 1.7	6.59 1.4	0.72 1.6	0.68 1.4	0.64 1.7	0.47 1.9
Stable Alignment (IL)	6.43 1.5	6.27 1.6	0.70 1.5	0.66 1.2	0.62 1.7	0.40 1.7
Reference: ChatGPT	7.72 1.3	8.43 1.6	0.84 1.5	0.79 1.4	0.76 1.7	0.60 1.6

Stable Alignment は、HH-A のような敵対的シナリオを含む六つの整合ベンチマークでベースラインを上回る。
アブレーションでは Realignment を除去すると敵対的頑健性が著しく低下する。Self-Critic を含めると、Imitation のみの場合より性能が向上する。
Contrastive Preference Optimization は、オンライン報酬モデルなしで競合力のある、または優れた結果を提供する。
人間の評価では、Stable Alignment の出力が、多くのケースで ChatGPT を含む複数のベースラインより整合性品質で好まれる。
三段階全体パイプラインで訓練すると、単一段階の模倣に依存するベースラインと比較して、より少ない相互作用で高い整合性を得られる。
このアプローチは、インドメイン・アウトオブドメイン双方のタスクでも競争力があり、模擬相互作用による監督の強い一般化を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。