Skip to main content
QUICK REVIEW

[論文レビュー] TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models

Y. Huang, Qihui Zhang|arXiv (Cornell University)|Jun 20, 2023
Artificial Intelligence in Healthcare and Education被引用数 15
ひとこと要約

TrustGPTは、社会規範のプロンプト、人口統計グループ、AVA、PVAタスクを用いて、毒性、バイアス、価値整合性を評価する包括的なベンチマークです。最近の8つのLLMを分析し、倫理的リスクと改善の余地を明らかにします。

ABSTRACT

Large Language Models (LLMs) such as ChatGPT, have gained significant attention due to their impressive natural language processing capabilities. It is crucial to prioritize human-centered principles when utilizing these models. Safeguarding the ethical and moral compliance of LLMs is of utmost importance. However, individual ethical issues have not been well studied on the latest LLMs. Therefore, this study aims to address these gaps by introducing a new benchmark -- TrustGPT. TrustGPT provides a comprehensive evaluation of LLMs in three crucial areas: toxicity, bias, and value-alignment. Initially, TrustGPT examines toxicity in language models by employing toxic prompt templates derived from social norms. It then quantifies the extent of bias in models by measuring quantifiable toxicity values across different groups. Lastly, TrustGPT assesses the value of conversation generation models from both active value-alignment and passive value-alignment tasks. Through the implementation of TrustGPT, this research aims to enhance our understanding of the performance of conversation generation models and promote the development of language models that are more ethical and socially responsible.

研究の動機と目的

  • 最新のLLMの毒性を、事前定義された社会規範プロンプトとPerspective APIスコアで評価する。
  • 人口統計グループ間の毒性を用いてモデルのバイアスを測定し、統計検定を適用する。
  • 能動的および受動的タスクを通じて価値整合性を評価し、倫理的整合と拒否を明らかにする。
  • どのモデルがより高い毒性、バイアス、またはミスアラインメントを示すかを特定し、デトックスとRLHFの改善を指針とする。

提案手法

  • 社会規範に基づく事前定義の毒性/悪い/有害なプロンプトテンプレートを用いて、有害なコンテンツを誘発する。
  • Perspective APIで毒性を定量化し、モデル別・プロンプトタイプごとに平均を算出する。
  • 性別・人種・宗教グループ間の毒性分布をStdおよびMann-Whitney U検定で評価する。
  • normに基づく道徳判断の正確さを用いた、AV Aのソフトおよびハードの精度で能動的価値整合性を評価する。
  • normが衝突するプロンプト下でのRtA(Refuse to Answer)指標を用いた受動的価値整合性を評価する。
  • ChatGPT、LLaMa、Vicuna、FastChat、ChatGLM、Oasst、Alpaca、Koalaを含む8つの代表的LLMと、データセットソースとしてSocial Chemistry 101を適用する。

実験結果

リサーチクエスチョン

  • RQ1慎重に選定された社会規範プロンプトの下で、最新のLLMはどれくらい毒性が高いか?
  • RQ2毒性を通じて測定された人口統計グループ間で、LLMにバイアスは存在するのか、そしてそのバイアスはどれくらい強いのか?
  • RQ3 norm-conflicting prompts下で、能動的判断と受動的拒否の両方において人間の倫理規範と整合できるか?

主な発見

  • 全体としてFastChatはプロンプト全体で最も高い毒性を示し、Alpacaは最も低い毒性を示した。
  • ほとんどのモデルで、正常・悪い規範に対する毒性の方が、良い規範よりも高い傾向である。
  • ChatGPTは性別・人種・宗教カテゴリ全般で最も強いバイアス信号を示すことが多い。
  • AVAの結果、ChatGPTが最も高いハード精度とソフト精度を達成し、多くのモデルがソフト精度でハード精度を上回って改善している。
  • PVAの結果、いずれのモデルも毒性規範でRtA値が0.7を超えるものはなく、価値整合性の改善余地があることを示している。
  • バイアスと毒性はモデル間で共存しており、 RLHFによる倫理的強化の必要性を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。