QUICK REVIEW

[論文レビュー] Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits

Ruibo Liu, Chenyan Jia|arXiv (Cornell University)|Jan 1, 2023

Topic Modeling被引用数 12

ひとこと要約

この論文では Second Thoughts を導入し、ソース文からターゲット文へチェーン・オブ・エディットを学習することで言語モデルを人間の価値観へ再調整し、RLの洗練段階を経る。これにより、 poisoned contexts においても価値整合性と解釈性が向上する。

ABSTRACT

We present Second Thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tuning and additional refinement through reinforcement learning, Second Thought not only achieves superior performance in three value alignment benchmark datasets but also shows strong human-value transfer learning ability in few-shot scenarios. The generated editing steps also offer better interpretability and ease for interactive error correction. Extensive human evaluations further confirm its effectiveness.

研究の動機と目的

オープンワールド文脈における微調整済み LM が人間の価値観と乖離する問題を動機付けと共に解決する，特に文脈が Poisoned されている場合。
人間の編集をモデル化し、価値適合テキストを回復するチェーン・オブ・エディット（挿入/削除/置換）を提案する。
標準トレーニングを拡張した Augmented Edits Modeling (AEM) により編集チェーンを自然言語風のトレーニング入力に変換する。
強化学習を適用して一貫性と整合性を高める。
extensive な人間評価を通じてエディットチェーンの転移学習能力と解釈性を示す。

提案手法

ソース文とターゲット文から動的計画法の edit-distance アプローチを用いてチェーン・オブ・エディットを推定（コストをカスタマイズ可能）。
Edit Chains を自然言語風のトレーニング入力へ変換する Augmented Edits Modeling（AEM）を用いてトレーニングを拡張する。
リファインメントを導くためにネガティブデモンストレーションを活用し、強化学習で一貫性を向上させる。
出力を文脈に整合し価値に沿ったテキストへ押し込むため、二つの RL 洗練戦略を適用する：Adversarial Imitation Learning（AIL）と Value Modeling（VM）。
複数の価値整合ベンチマークで評価し、Large Language Model API を含む強力なベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1 poisoned から整列へと編集チェーンを学習することでモデルが人間の価値観へ再調整できるか。
RQ2AEM による編集チェーンの訓練拡張と RL での洗練が、ベースラインに対して価値整合性と一貫性を改善するか。
RQ3Second Thoughts は限られたラベル付きデータで未確認の価値整合タスクへどれだけ転移できるか。

主な発見

Second Thoughts with AEM + VM は Moral Stories、MIC、ETHICS-Deontology ベンチマーク全体で最も高い整合性と一貫性を達成。
RL 洗練（VM または AIL）は非 RL ベースラインを大幅に上回り、InstructGPT をいくつかの設定で上回る。
編集チェーンは転移学習を改善し、未知の価値整合タスクでの few-shot 効果が顕著。
人間評価は複数のベースラインと大規模 API サービスに対して整合性と一貫性の実質的な改善を示す。
本手法は各整合判断に対する明示的なチェーン・オブ・エディットを通じて解釈性を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。