Skip to main content
QUICK REVIEW

[論文レビュー] Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning

Andrés Holgado-Sánchez, Peter Vamplew|arXiv (Cornell University)|Feb 9, 2026
Ethics and Social Impacts of AI被引用数 0
ひとこと要約

この論文は、エージェントをクラスタリングし、嗜好ベースの多目的強化学習を用いて各グループの価値 grounded ポリシーを導出することで、マルコフ決定過程における社会の価値体系を学習する方法を提案する。

ABSTRACT

Value-aware AI should recognise human values and adapt to the value systems (value-based preferences) of different users. This requires operationalization of values, which can be prone to misspecification. The social nature of values demands their representation to adhere to multiple users while value systems are diverse, yet exhibit patterns among groups. In sequential decision making, efforts have been made towards personalization for different goals or values from demonstrations of diverse agents. However, these approaches demand manually designed features or lack value-based interpretability and/or adaptability to diverse user preferences. We propose algorithms for learning models of value alignment and value systems for a society of agents in Markov Decision Processes (MDPs), based on clustering and preference-based multi-objective reinforcement learning (PbMORL). We jointly learn socially-derived value alignment models (groundings) and a set of value systems that concisely represent different groups of users (clusters) in a society. Each cluster consists of a value system representing the value-based preferences of its members and an approximately Pareto-optimal policy that reflects behaviours aligned with this value system. We evaluate our method against a state-of-the-art PbMORL algorithm and baselines on two MDPs with human values.

研究の動機と目的

  • plural-valued preferences を捉え、価値 grounding の誤設定を是正することで、価値認識型AIを動機付ける。
  • 社会を社会的 grounding と異なるエージェントクラスタに対応する複数の価値体系で表現する。
  • Pareto効率的なポリシーを備えつつ、オンラインPbMORL手法を開発し、価値整合性(groundings)と価値体系クラスタを同時に学習する。

提案手法

  • 価値を alignment utilities と MDP軌跡に grounding された grounding 関数を用いて集合 V として表現する。
  • 価値体系をエージェント固有の重みを用いた多目的報酬の線形スカラー化として定義する。
  • 個別 grounding との一貫性を最大化しつつ、表現力と簡潔さを両立させる社会的価値体系を学習するための bi-level 最適化を提案する。
  • 深層学習アプローチを用い、報酬ベクトルネットワークと複数の重みネットワークで grounding と価値体系を学習する。
  • Bradley-Terry モデルを適用して、価値整合と価値ベース嗜好の両方の軌跡対に対する嗜好をエンコードする。
  • Envelope Q-Learning を用いて、異なる価値体系を表す重みベクトルに条件付けられた Pareto効率的ポリシーの集合を学習する。
  • オンラインの人間-in-the-loop フィードバックを組み込み、学習された価値体系を実際のエージェント行動へ誘導する。
Figure 1. FF environment. Approximated Pareto front and clusters learned with PbMORL (Top) and SVSL-P (bottom, ours) with a particular seed. Black squares form the ground-truth Pareto front. White dots depict weights which policies are in the approximated front. Coloured dots indicate the policies r
Figure 1. FF environment. Approximated Pareto front and clusters learned with PbMORL (Top) and SVSL-P (bottom, ours) with a particular seed. Black squares form the ground-truth Pareto front. White dots depict weights which policies are in the approximated front. Coloured dots indicate the policies r

実験結果

リサーチクエスチョン

  • RQ1社会の grounding は軌跡嗜好と価値整合データから学習できるのか。
  • RQ2個々の嗜好を代表しつつ多様なグループを簡潔に表現する価値体系の集合をどのように発見できるか。
  • RQ3学習した価値体系は各グループの価値に整合したPareto効率的ポリシーを生み出すのか。
  • RQ4オンラインの HiL フィードバックは価値体系学習時の実際のエージェント行動との整合性を高めるのか。

主な発見

  • 提案手法 SVSL-P は、MDP に対応する社会 grounding と複数の価値体系を学習し、エージェントクラスタに対応づける。
  • bi-level 最適化は社会の価値体系の表現力と簡潔さのバランスを取りつつ grounding の一貫性を最大化する。
  • 加重報酬ベクトルを最適化することで各クラスタに対して Pareto効率的で価値整合のあるポリシーを得られる。
  • オンラインの HiL フィードバックは学習された価値体系を実際のエージェント行動へ導き、整合性を向上させる。
  • この手法はベースライン PbMORL アプローチおよび最先端 PbMORL アルゴリズムと比較し、社会の価値体系学習の性能を評価する。
Figure 2. FF environment. Pareto front and clusters learned with PbMORL with the different 10 seeds. Black squares indicate the known Pareto front of the environment in terms of the alignment with the two values. White dots depict weights which policies are in the learned front with each method. Col
Figure 2. FF environment. Pareto front and clusters learned with PbMORL with the different 10 seeds. Black squares indicate the known Pareto front of the environment in terms of the alignment with the two values. White dots depict weights which policies are in the learned front with each method. Col

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。