Skip to main content
QUICK REVIEW

[論文レビュー] Reward Modeling for Mitigating Toxicity in Transformer-based Language Models

Farshid Faal, Ketra Schmitt|arXiv (Cornell University)|Feb 19, 2022
Topic Modeling参考文献 43被引用数 28
ひとこと要約

本論文では、トランスフォーマーに基づく言語モデルにおける毒性を低減するが、マイノリティの社会的アイデンティティに不測のバイアスを生じさせないよう、マルチタスク学習(MTL)に基づく報酬モデルを用いた強化学習ベースの手法であるReinforce-Detoxifyを提案する。KLダイバージェンスペナルティを伴うプロキシマルポリシー最適化(PPO)によるファインチューニングにより、自然な表現やアイデンティティ関連コンテンツのカバレッジを損なわず、毒性低減において最先端の性能を達成する。

ABSTRACT

Transformer-based language models are able to generate fluent text and be efficiently adapted across various natural language generation tasks. However, language models that are pretrained on large unlabeled web text corpora have been shown to suffer from degenerating toxic content and social bias behaviors, consequently hindering their safe deployment. Various detoxification methods were proposed to mitigate the language model's toxicity; however, these methods struggled to detoxify language models when conditioned on prompts that contain specific social identities related to gender, race, or religion. In this study, we propose Reinforce-Detoxify; A reinforcement learning-based method for mitigating toxicity in language models. We address the challenge of safety in language models and propose a new reward model that is able to detect toxic content and mitigate unintended bias towards social identities in toxicity prediction. The experiments demonstrate that the Reinforce-Detoxify method for language model detoxification outperforms existing detoxification approaches in automatic evaluation metrics, indicating the ability of our approach in language model detoxification and less prone to unintended bias toward social identities in generated content.

研究の動機と目的

  • ブラック、アジア系、ムスリムコミュニティなど、マイノリティの社会的アイデンティティに偏った言語が不測のバイアスによって抑制される既存のデトックス化手法の問題を解決すること。
  • 毒性を検出すると同時に、人種、性別、宗教に関するバイアスを軽減する報酬モデルの開発。
  • 自然さやアイデンティティ関連言語のカバレッジを損なわず、言語モデル生成の安全性を向上させること。
  • バイアスに配慮した報酬モデルを用いた強化学習によるファインチューニングが、既存の手法よりも優れた毒性低減効果を示すことを実証すること。
  • BOLDやRTPといったベンチマークデータセットを用いて、多様な社会的アイデンティティにわたる耐性を評価すること。

提案手法

  • 本手法は、事前学習済み言語モデルのファインチューニングに、プロキシマルポリシー最適化(PPO)を用いた強化学習を採用する。
  • Jigsaw Unintended Bias in Toxicityデータセットを用いて、毒性検出と社会的アイデンティティへのバイアス低減を同時に学習するマルチタスク学習(MTL)報酬モデルを訓練する。
  • 人種、性別、宗教などの複数の補助タスクを同時に学習させることで、毒性検出における公平性を向上させる。
  • 報酬を最大化する一方で、元の言語モデルからの逸脱をKullback-Leibler(KL)ダイバージェンス正則化によりペナルティ処理することで、ポリシーを最適化する。
  • ファインチューニングは、Real Toxicity Prompts(RTP)データセットからのプロンプトを条件とし、アイデンティティ固有のバイアス評価にはBOLDデータセットを用いる。
  • 報酬モデルの訓練には、Jigsawデータセットからの人間によるアノテーションデータを活用し、公平性と毒性検出性能の両方を向上させる。

実験結果

リサーチクエスチョン

  • RQ1マルチタスク学習に基づく報酬モデルは、単一タスク分類器と比較して、毒性検出における不測のバイアスを低減できるか?
  • RQ2この報酬モデルを用いた強化学習によるファインチューニングは、自然さを損なわず、言語モデル生成における毒性を低減できるか?
  • RQ3ブラック、アジア系、ムスリムの個人など、マイノリティのグループから成るアイデンティティをプロンプトに与えた場合、本手法はどのように動作するか?
  • RQ4KLペナルティを除去した場合、生成テキストの自然さはどの程度劣化するか?
  • RQ5本手法は、マイノリティコミュニティの方言や言語的表現のカバレッジを維持できるか?

主な発見

  • Reinforce-Detoxifyモデルは、BOLDデータセットにおける『Female』アイデンティティに対して毒性スコア77.69を達成し、DAPTベースライン(71.18)および元のGPT-2(80.40)を上回った。
  • 『African Americans』に対しては、毒性スコア89.04を達成し、DAPTベースライン(83.44)を顕著に上回り、公平性の向上が確認された。
  • 『Religion』アイデンティティでは、低いパープレキシティ(71.18)を維持したが、95.06に上昇したため、このアイデンティティグループでは自然さのトレードオフが生じた。
  • アブレーションスタディでは、マルチタスクMTL分類器がF1スコア0.8942を達成し、単一タスクモデル(0.7664)を上回った。
  • KLペナルティを除去した結果、表13に示すように、生成テキストが反復的かつ不条理な内容に陥り、自然さが著しく劣化した。
  • 本手法は、すべてのアイデンティティグループにおいて、毒性低減と言語的多様性の維持の両面で、既存のデトックス化ベースラインを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。