Skip to main content
QUICK REVIEW

[論文レビュー] Chain of Hindsight Aligns Language Models with Feedback

Hao Liu, Carmelo Sferrazza|arXiv (Cornell University)|Feb 6, 2023
Topic Modeling被引用数 27
ひとこと要約

Chain of Hindsight (CoH) は、フィードバックと組み合わせたモデル生成の系列に条件付けることにより言語モデルをファインチューニングし、RLを用いずにすべてのフィードバックから学習を可能にし、要約と対話タスクでSFTおよびRLHFを上回る。

ABSTRACT

Learning from human preferences is important for language models to match human needs and to align with human and social values. Prior works have achieved remarkable successes by learning from human feedback to understand and follow instructions. Nonetheless, these methods are either founded on hand-picked model generations that are favored by human annotators, rendering them inefficient in terms of data utilization and challenging to apply in general, or they depend on reinforcement learning, which often suffers from imperfect reward functions and relies on extremely challenging optimizations. In this work, we propose a novel technique, Chain of Hindsight, that is easy to optimize and can learn from any form of feedback, regardless of its polarity. Our idea is inspired by how humans learn from extensive feedback presented in the form of languages. We convert all types of feedback into sequences of sentences, which are then used to fine-tune the model, allowing us to take advantage of the language comprehension capabilities of language models. We condition the model on a sequence of model generations paired with feedback. By doing so, the model is trained to generate outputs based on feedback, while learning to identify and correct negative attributes or errors. Applying our method to large language models, we observed that Chain of Hindsight significantly surpasses previous methods in aligning language models with human preferences. We report significant improvements on summarization and dialogue benchmarks, with our approach markedly preferred in human evaluations.

研究の動機と目的

  • すべての形態の人間のフィードバックを活用することによって、監視付きファインチューニングとRLHFの非効率性に対処する。
  • ポジティブおよびネガティブなフィードバックの両方から、自然言語によるガイダンスを含む、学習を可能にする。
  • 強化学習の最適化を避ける、シンプルでスケーラブルなファインチューニングフレームワークを提供する。
  • 要約と対話のベンチマークで人間の嗜好との整合性が改善されていることを示す。

提案手法

  • すべての人間のフィードバックを、モデル出力と対になった hindsight フィードバックの系列に変換する。
  • 過去の出力とそれらのフィードバックを条件として出力を予測するデコーダーのみの Transformer をファインチューニングする。
  • トレーニング中に過去のトークンの 0-5% をマスクして単一の例のコピーを防ぎ、一般化を改善する。
  • 事前学習データの対数尤度を最大化する正則化項を維持してベースの言語モデリングを保つ。
  • フィードバック系列を条件として訓練しつつ、非フィードバックトークンに対してクロスエントロピー損失を用いる。
  • 自動指標と人間評価の両方を用いて要約と対話タスクを評価する。

実験結果

リサーチクエスチョン

  • RQ1Chain of Hindsight (CoH) は、要約と対話ベンチマークにおいて SFT、SFT に対する非難性付き、条件付き SFT、 RLHF と比較してどのように性能を発揮するか?
  • RQ2CoH は強化学習なしで、正と負のフィードバック、自然言語の説明を含むものから効果的に学習できるか?
  • RQ3自然言語フィードバックを取り入れることで、モデルの整合性と人間の嗜好への適合性はより改善されるか?
  • RQ4モデルサイズは CoH の性能とスケーラビリティを、ベースラインと比較してどのように影響するか?

主な発見

  • CoH は要約と対話タスクにおいて RLHF や様々な SFT 変種を含むベースラインを大幅に上回る。
  • 人間の評価では、要約での正確さ・一貫性・カバレッジ、対話での有用性・無害性の点で、CoH が RLHF および条件付き SFT を上回る。
  • 自然言語フィードバック(バイナリフィードバックだけでなく)を取り入れることが結果を改善する。
  • CoH はスケーリング挙動に有利を示し、モデルサイズが大きいほど優位性が拡大する。
  • オープンソースデータセット上の CoH は Koala ベースの SFT と同等かそれを超える成果を示し、CoH と Koala の組み合わせはさらなる改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。