Skip to main content
QUICK REVIEW

[논문 리뷰] Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning

Andrés Holgado-Sánchez, Peter Vamplew|arXiv (Cornell University)|2026. 02. 09.
Ethics and Social Impacts of AI인용 수 0
한 줄 요약

이 논문은 행위자 클러스터링을 통해 사회의 가치 체계를 학습하고 선호 기반 다목적 강화 학습을 사용하여 각 그룹에 대해 가치 기반 정책을 도출하는 방법을 제시한다.

ABSTRACT

Value-aware AI should recognise human values and adapt to the value systems (value-based preferences) of different users. This requires operationalization of values, which can be prone to misspecification. The social nature of values demands their representation to adhere to multiple users while value systems are diverse, yet exhibit patterns among groups. In sequential decision making, efforts have been made towards personalization for different goals or values from demonstrations of diverse agents. However, these approaches demand manually designed features or lack value-based interpretability and/or adaptability to diverse user preferences. We propose algorithms for learning models of value alignment and value systems for a society of agents in Markov Decision Processes (MDPs), based on clustering and preference-based multi-objective reinforcement learning (PbMORL). We jointly learn socially-derived value alignment models (groundings) and a set of value systems that concisely represent different groups of users (clusters) in a society. Each cluster consists of a value system representing the value-based preferences of its members and an approximately Pareto-optimal policy that reflects behaviours aligned with this value system. We evaluate our method against a state-of-the-art PbMORL algorithm and baselines on two MDPs with human values.

연구 동기 및 목표

  • 다중 가치 선호를 포착하고 가치 기초화의 잘못된 정의를 해결하여 가치 인식 AI를 고무한다.
  • 다양한 에이전트 클러스터에 대응하는 사회적 기초화와 다수의 가치 체계를 포함하는 사회를 표현한다.
  • 온라인 PbMORL 방법을 개발하여 가치 정렬(groundings)과 가치 체계 클러스터를 Pareto-efficient 정책과 함께 공동으로 학습한다.

제안 방법

  • 가치를 MDP 궤적에 근거한 정렬 유틸리티와 기초화 함수가 포함된 집합 V로 표현한다.
  • 에이전트별 가중치를 갖는 다목적 보상에 대한 선형 스칼라화로 가치 체계를 정의한다.
  • 개별 기초화와의 일관성을 극대화하고 대표성 및 간결성을 달성하는 사회 가치 시스템을 학습하기 위한 이중 최적화를 제안한다.
  • 보상 벡터 네트워크와 다중 가중치 네트워크를 활용한 딥 러닝 접근 방식으로 기초화와 가치 체계를 학습한다.
  • 가치 정렬과 가치 기반 선호 모두에 대해 궤적 쌍의 선호를 인코딩하기 위해 Bradley-Terry 모델을 적용한다.
  • 다양한 가치 체계를 나타내는 가중치 벡터에 조건화된 파레토 효율적 정책 집합을 학습하기 위해 Envelope Q-Learning을 적용한다.
  • 학습된 가치 체계가 실제 에이전트 행동으로 향하도록 온라인 사람-루프 피드백을 도입한다.
Figure 1. FF environment. Approximated Pareto front and clusters learned with PbMORL (Top) and SVSL-P (bottom, ours) with a particular seed. Black squares form the ground-truth Pareto front. White dots depict weights which policies are in the approximated front. Coloured dots indicate the policies r
Figure 1. FF environment. Approximated Pareto front and clusters learned with PbMORL (Top) and SVSL-P (bottom, ours) with a particular seed. Black squares form the ground-truth Pareto front. White dots depict weights which policies are in the approximated front. Coloured dots indicate the policies r

실험 결과

연구 질문

  • RQ1궤적 선호 및 가치 정렬 데이터로 사회의 가치 기초화를 학습할 수 있는가?
  • RQ2개인의 선호를 대표하면서도 다양한 그룹을 간결하게 대표하는 가치 체계 집합을 어떻게 발견할 수 있는가?
  • RQ3학습된 가치 체계가 각 그룹의 가치에 정렬된 파레토 효율적 정책을 낳을 수 있는가?
  • RQ4가치 체계를 학습할 때 온라인 HiL 피드백이 실제 에이전트 행동과의 정렬을 개선하는가?

주요 결과

  • 제안된 SVSL-P 방법은 MDP에서 에이전트 클러스터에 대응하는 사회적 기초화와 다수의 가치 체계를 학습한다.
  • 이중 최적화는 사회의 가치 체계의 대표성과 간결성을 균형 있게 조절하면서 기초화 일관성을 극대화한다.
  • 가중 보상 벡터를 최적화함으로써 각 클러스터에 대해 파레토 효율적이고 가치 정렬된 정책을 생성한다.
  • 온라인 HiL 피드백이 학습된 가치 체계를 실제 에이전트 행동으로 향하도록 이끌어 정렬을 개선한다.
  • 이 방법은 성능 평가를 위해 기준 PbMORL 접근법과 최첨단 PbMORL 알고리즘과 비교된다.
Figure 2. FF environment. Pareto front and clusters learned with PbMORL with the different 10 seeds. Black squares indicate the known Pareto front of the environment in terms of the alignment with the two values. White dots depict weights which policies are in the learned front with each method. Col
Figure 2. FF environment. Pareto front and clusters learned with PbMORL with the different 10 seeds. Black squares indicate the known Pareto front of the environment in terms of the alignment with the two values. White dots depict weights which policies are in the learned front with each method. Col

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.