Skip to main content
QUICK REVIEW

[논문 리뷰] A Distributional View on Multi-Objective Policy Optimization

Abbas Abdolmaleki, Sandy H. Huang|arXiv (Cornell University)|2020. 05. 15.
Advanced Multi-Objective Optimization Algorithms인용 수 23
한 줄 요약

이 논문은 다목적 강화학습(MORL)을 위한 척도 불변의 분포 기반 접근법을 제안한다. 이 방법은 각 목적으로부터 별도의 행동 분포를 학습하고, 이를 지도 학습 기반 정책 학습을 통해 조합한다. 각 목표별 분포와 현재 정책 간의 KL 발산을 제약함으로써, 스칼라화 없이도 민감도가 높은 선호 기반의 트레이드오프를 가능하게 하며, 고차원 연속 제어 과제에서 파레토 최적 정책을 달성한다.

ABSTRACT

Many real-world problems require trading off multiple competing objectives. However, these objectives are often in different units and/or scales, which can make it challenging for practitioners to express numerical preferences over objectives in their native units. In this paper we propose a novel algorithm for multi-objective reinforcement learning that enables setting desired preferences for objectives in a scale-invariant way. We propose to learn an action distribution for each objective, and we use supervised learning to fit a parametric policy to a combination of these distributions. We demonstrate the effectiveness of our approach on challenging high-dimensional real and simulated robotics tasks, and show that setting different preferences in our framework allows us to trace out the space of nondominated solutions.

연구 동기 및 목표

  • 다목적 강화학습(MORL)에서 서로 다른 단위나 척도를 가진 목표들 간의 선호도 표현 문제를 해결하기 위해.
  • 다양한 단위를 가진 목표의 스칼라화가 필요 없도록, 척도 불변 방식으로 선호도를 설정할 수 있는 방법을 개발하기 위해.
  • 지난 정책에 대한 가중 조합을 통해 목표별 행동 분포를 통합함으로써, 다수의 목표를 균형 잡힌 방식으로 조절하는 단일 정책을 학습하기 위해.
  • 선호도 제약 조건을 다양하게 조절함으로써, 비지배적 해의 전체 파레토 프론트를 추적하기 위해.

제안 방법

  • 논문은 강화학습을 추론로 보는 시각에 기반한 변분 추론 프레임워크를 사용하여, 각 목표에 대해 별도의 행동 분포를 학습한다.
  • 각 목표별 분포는 기대 수익을 최대화하면서 현재 정책에 대한 상대적 KL 발산을 제약 조건으로 설정함으로써 유도되며, 이 제약 수준이 선호도를 표현한다.
  • 업데이트된 정책는 이러한 목표별 분포의 가중 조합에 대해 매개변수화된 정책를 피팅함으로써 지도 학습을 통해 확보된다.
  • KL 발산 제약은 하드 바ounds로 구현되며, 제약 하이퍼파rameter εk 가 각 목표의 영향력을 제어한다.
  • 이 방법은 오프-폴리시(MO-MPO) 및 온-폴리시(MO-V-MPO) 강화학습 알고리즘 모두와 호환되며, 기반 알고리즘으로 MPO와 V-MPO를 사용한다.
  • 보상 공간이 아닌 분포 공간에서 작동하므로 스칼라화를 피함으로써 보상 척도에 불변성을 확보한다.

실험 결과

연구 질문

  • RQ1분포 기반 접근법이 서로 다른 단위나 척도를 가진 목표의 스칼라화 없이도 척도 불변의 선호도 사양을 가능하게 할 수 있는가?
  • RQ2제안된 방법이 고차원 연속 제어 과제에서 비지배적 정책의 파레토 프론트를 얼마나 잘 추적할 수 있는가?
  • RQ3선호도 사양에 대한 민감도 면에서, 기존 스칼라화 기반 접근법보다 정책 품질과 안정성 면에서 뛰어나게 성능을 발휘하는가?
  • RQ4이 방법은 MPO와 V-MPO와 같은 오프-폴리시 및 온-폴리시 딥 강화학습 알고리즘과 효과적으로 통합될 수 있는가?

주요 결과

  • 제안된 방법은 벤치마크 MORL 과제에서 비지배적 해의 전체 공간을 성공적으로 추적하여, 다양한 파레토 최적 정책 생성 능력을 입증한다.
  • MO-MPO와 MO-V-MPO는 시뮬레이션 및 실제 로봇 제어 과제를 포함한 여러 고차원 연속 제어 환경에서 스칼라화 기반 베이스라인보다 뛰어난 성능을 보였다.
  • 특히 목표들이 극명하게 다른 척도나 단위를 가질 경우, 스칼라화 기반 접근법보다 더 뛰어난 정책 성능을 달성하였다.
  • KL 발산 제약 조건의 사용은 효과적이고 안정적인 선호도 제어를 가능하게 하였으며, 상대적 제약 값(εk)이 목표 간의 원하는 트레이드오프를 직접적으로 표현한다.
  • 이 방법은 강화학습을 추론로 보는 이론적 프레임워크에 기반하여, MORL에서 스칼라화의 체계적인 대안을 제공한다.
  • 실험 결과는 이 방법이 복잡한 로봇 제어 과제, 특히 20개 이상의 행동 차원을 가진 과제들에서도 잘 일반화됨을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.