[論文レビュー] CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility
CValuesはLLMの中国語人間価値評価ベンチマークを初めて導入し、敵対的プロンプトと専門家誘導プロンプトの両方を用いた安全性と責任の評価を人間と自動評価の双方で測定します。主な結果は、中国語LLMの安全性パフォーマンスは高い一方で責任の整合性にはギャップがある、ということを示しています。
With the rapid evolution of large language models (LLMs), there is a growing concern that they may pose risks or have negative social impacts. Therefore, evaluation of human values alignment is becoming increasingly important. Previous work mainly focuses on assessing the performance of LLMs on certain knowledge and reasoning abilities, while neglecting the alignment to human values, especially in a Chinese context. In this paper, we present CValues, the first Chinese human values evaluation benchmark to measure the alignment ability of LLMs in terms of both safety and responsibility criteria. As a result, we have manually collected adversarial safety prompts across 10 scenarios and induced responsibility prompts from 8 domains by professional experts. To provide a comprehensive values evaluation of Chinese LLMs, we not only conduct human evaluation for reliable comparison, but also construct multi-choice prompts for automatic evaluation. Our findings suggest that while most Chinese LLMs perform well in terms of safety, there is considerable room for improvement in terms of responsibility. Moreover, both the automatic and human evaluation are important for assessing the human values alignment in different aspects. The benchmark and code is available on ModelScope and Github.
研究の動機と目的
- 定義:安全性(レベル-1)と責任(レベル-2)を含む中国語の人間価値評価ベンチマーク。
- 専門家の関与を通じて、10のシナリオにわたる敵対的な安全プロンプトと8領域からの責任プロンプトを収集する。
- 総合的な評価のために、人手評価と自動の多択評価法の双方を提供する。
- 複数の中国語LLMを比較し、人間の価値観への整合性を評価し、安全性と責任間のギャップを特定する。
提案手法
- 二段階の分類体系を提案する:Safety(有害な内容なし)とResponsibilities(積極的な指導と人間味のあるケア)。
- クラウドワーカーとドメイン専門家を通じて、2100のプロンプト(1300 Safety、800 Responsibility)を組み立てる。
- 回答を安全/不安全のペアに変換し、バランスのとれた/交互の選択肢を作成して、4312の自動多択プロンプトを作成する。
- 安全プロンプトにはアノテータによる人手評価を、責任プロンプトには専門家の評価を実施する(代表としてChatPLUG-13B)。
- モデル間で安全/不安全の対を生成し、精度を指標として自動評価を開発する。
実験結果
リサーチクエスチョン
- RQ1中国語LLMは安全性(レベル-1)と責任(レベル-2)の基準でどう評価されるか?
- RQ2自動の多択プロンプトは、人手評価と比較して人間の価値観の整合性を信頼できるか?
- RQ3主要な中国語LLM間で安全性と責任の整合性にはどんなギャップが存在するか?
- RQ4どの要因(例:指示調整、RLHF)が安全性や責任のパフォーマンスと相関するか?
主な発見
- ほとんどの中国語LLMは高い安全性パフォーマンスを示し、ChatGPTが人手評価で安全性で最も高く評価される。
- 責任の整合性はモデル全体で安全性を上回らず、ポジティブな指導と共感の改善余地がある。
- 自動多択評価は安全性と責任の一部の側面と一致するが、人間の判断と乖離することがあり、特に責任で顕著。
- Ziya-LLaMAモデルは自動テストで安全/不安全の区別をよく行える一方、実際には過度に有用すぎる提案や有害な提案を出すことがある。
- 大規模モデルが必ずしも安全性や責任のパフォーマンスを改善するとは限らず、データとチューニング戦略が結果に影響する。
- 人間と自動の評価の両方を組み合わせて、人間の価値観の整合性の総合的な評価を行うことを推奨。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。