QUICK REVIEW

[논문 리뷰] A Distributional View on Multi-Objective Policy Optimization

Abbas Abdolmaleki, Sandy H. Huang|arXiv (Cornell University)|2020. 05. 15.

Advanced Multi-Objective Optimization Algorithms인용 수 23

한 줄 요약

이 논문은 다목적 강화학습(MORL)을 위한 척도 불변의 분포 기반 접근법을 제안한다. 이 방법은 각 목적으로부터 별도의 행동 분포를 학습하고, 이를 지도 학습 기반 정책 학습을 통해 조합한다. 각 목표별 분포와 현재 정책 간의 KL 발산을 제약함으로써, 스칼라화 없이도 민감도가 높은 선호 기반의 트레이드오프를 가능하게 하며, 고차원 연속 제어 과제에서 파레토 최적 정책을 달성한다.

ABSTRACT

Many real-world problems require trading off multiple competing objectives. However, these objectives are often in different units and/or scales, which can make it challenging for practitioners to express numerical preferences over objectives in their native units. In this paper we propose a novel algorithm for multi-objective reinforcement learning that enables setting desired preferences for objectives in a scale-invariant way. We propose to learn an action distribution for each objective, and we use supervised learning to fit a parametric policy to a combination of these distributions. We demonstrate the effectiveness of our approach on challenging high-dimensional real and simulated robotics tasks, and show that setting different preferences in our framework allows us to trace out the space of nondominated solutions.

연구 동기 및 목표

다목적 강화학습(MORL)에서 서로 다른 단위나 척도를 가진 목표들 간의 선호도 표현 문제를 해결하기 위해.
다양한 단위를 가진 목표의 스칼라화가 필요 없도록, 척도 불변 방식으로 선호도를 설정할 수 있는 방법을 개발하기 위해.
지난 정책에 대한 가중 조합을 통해 목표별 행동 분포를 통합함으로써, 다수의 목표를 균형 잡힌 방식으로 조절하는 단일 정책을 학습하기 위해.
선호도 제약 조건을 다양하게 조절함으로써, 비지배적 해의 전체 파레토 프론트를 추적하기 위해.

제안 방법

논문은 강화학습을 추론로 보는 시각에 기반한 변분 추론 프레임워크를 사용하여, 각 목표에 대해 별도의 행동 분포를 학습한다.
각 목표별 분포는 기대 수익을 최대화하면서 현재 정책에 대한 상대적 KL 발산을 제약 조건으로 설정함으로써 유도되며, 이 제약 수준이 선호도를 표현한다.
업데이트된 정책는 이러한 목표별 분포의 가중 조합에 대해 매개변수화된 정책를 피팅함으로써 지도 학습을 통해 확보된다.
KL 발산 제약은 하드 바ounds로 구현되며, 제약 하이퍼파rameter εk 가 각 목표의 영향력을 제어한다.
이 방법은 오프-폴리시(MO-MPO) 및 온-폴리시(MO-V-MPO) 강화학습 알고리즘 모두와 호환되며, 기반 알고리즘으로 MPO와 V-MPO를 사용한다.
보상 공간이 아닌 분포 공간에서 작동하므로 스칼라화를 피함으로써 보상 척도에 불변성을 확보한다.

실험 결과

연구 질문

RQ1분포 기반 접근법이 서로 다른 단위나 척도를 가진 목표의 스칼라화 없이도 척도 불변의 선호도 사양을 가능하게 할 수 있는가?
RQ2제안된 방법이 고차원 연속 제어 과제에서 비지배적 정책의 파레토 프론트를 얼마나 잘 추적할 수 있는가?
RQ3선호도 사양에 대한 민감도 면에서, 기존 스칼라화 기반 접근법보다 정책 품질과 안정성 면에서 뛰어나게 성능을 발휘하는가?
RQ4이 방법은 MPO와 V-MPO와 같은 오프-폴리시 및 온-폴리시 딥 강화학습 알고리즘과 효과적으로 통합될 수 있는가?

주요 결과

제안된 방법은 벤치마크 MORL 과제에서 비지배적 해의 전체 공간을 성공적으로 추적하여, 다양한 파레토 최적 정책 생성 능력을 입증한다.
MO-MPO와 MO-V-MPO는 시뮬레이션 및 실제 로봇 제어 과제를 포함한 여러 고차원 연속 제어 환경에서 스칼라화 기반 베이스라인보다 뛰어난 성능을 보였다.
특히 목표들이 극명하게 다른 척도나 단위를 가질 경우, 스칼라화 기반 접근법보다 더 뛰어난 정책 성능을 달성하였다.
KL 발산 제약 조건의 사용은 효과적이고 안정적인 선호도 제어를 가능하게 하였으며, 상대적 제약 값(εk)이 목표 간의 원하는 트레이드오프를 직접적으로 표현한다.
이 방법은 강화학습을 추론로 보는 이론적 프레임워크에 기반하여, MORL에서 스칼라화의 체계적인 대안을 제공한다.
실험 결과는 이 방법이 복잡한 로봇 제어 과제, 특히 20개 이상의 행동 차원을 가진 과제들에서도 잘 일반화됨을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.