Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforcement Learning with Convex Constraints

Sobhan Miryoosefi, Kianté Brantley|arXiv (Cornell University)|2019. 06. 21.
Reinforcement Learning in Robotics참고 문헌 15인용 수 32
한 줄 요약

APPROPO를 소개합니다. 제약 만족을 Blackwell 스타일의 접근성 게임으로 형상화하고 Online Convex Optimization으로 해결함으로써 임의의 볼록 제약 하에서 강화 학습을 가능하게 하는 프레임워크입니다. 이 방법은 스칼라 보상을 최적화하는 어떤 RL 알고리즘과 제약 척도에 대한 노드레거트 학습자를 모듈식으로 결합하여 타당성을 달성하고, 타당한 경우 제약 집합까지의 거리를 최소화합니다.

ABSTRACT

In standard reinforcement learning (RL), a learning agent seeks to optimize the overall reward. However, many key aspects of a desired behavior are more naturally expressed as constraints. For instance, the designer may want to limit the use of unsafe actions, increase the diversity of trajectories to enable exploration, or approximate expert trajectories when rewards are sparse. In this paper, we propose an algorithmic scheme that can handle a wide class of constraints in RL tasks: specifically, any constraints that require expected values of some vector measurements (such as the use of an action) to lie in a convex set. This captures previously studied constraints (such as safety and proximity to an expert), but also enables new classes of constraints (such as diversity). Our approach comes with rigorous theoretical guarantees and only relies on the ability to approximately solve standard RL tasks. As a result, it can be easily adapted to work with any model-free or model-based RL. In our experiments, we show that it matches previous algorithms that enforce safety via constraints, but can also enforce new properties that these algorithms do not incorporate, such as diversity.

연구 동기 및 목표

  • 다중 벡터 값 측정으로 표현되는 학습 목표(예: 안전성, 탐색 다양성)와 같은 목표를 더 잘 표현하기 위한 동기 부여.
  • RL 작업에서 장기 측정에 대한 임의의 볼록 제약을 다루는 일반 알고리즘 프레임워크 개발.
  • 이론적 보장(서브선형 후회 및 거리-집합 수렴)과 구현에 대한 실용적 지침 제공.

제안 방법

  • 장기 측정 벡터가 볼록 제약 집합 C에 속하는 혼합 정책 찾기를 문제로 형식화(타당성 문제).
  • 거리함수 dist(z(µ), C)를 이중 쐐기(max over a dual cone) 형태로 바꿔 정책-플레이어와 제약-플레이어 간 제로-합 게임으로 얻음.
  • 제약-플레이어에 대해 노-레그레트 온라인 학습자(OGD) 사용 및 정책-플레이어에 대해 스칼라 보상 r = −λ · z를 해결하는 베스트 응답 올버를 통한 표준 RL 적용.
  • APPROPO를 구현하기 위해 λ를 반복적으로 선택하고 BESTRESPONSE를 통해 πt를 해결하며 EST로 πt의 z를 추정하고, λ를 C의 극원(cone)으로 투영된 온라인 경사 하강법으로 업데이트합니다.
  • 일반 볼록 제약(단지 직교 사분면이 아님)을 다루기 위해 극원 Λ = C◦ ∩ B를 사용하고 투영 기반 업데이트를 적용합니다.
  • 원뿔 구조를 이용한 상승(conic hull)으로 비원뿔(convex 집합) 확장에 대한 확장을 제공하고 제약 거리의 최소화 근사에 대한 보장을 보여줍니다.

실험 결과

연구 질문

  • RQ1임의의 볼록 제약 조건이 접근성으로의 게임 이론적 축소를 통해 RL 문제를 해결할 수 있는가?
  • RQ2노-레그레트 학습자를 표준 RL 해법과 결합하여 벡터 값을 가지는 제약 만족을 강제할 수 있는가?
  • RQ3APPROPO에 대해 어떤 이론적 보장(후회 한계, 제약 집합으로의 수렴)을 확립할 수 있는가?

주요 결과

  • APPROPO는 장기 측정이 목표 볼록 제약 집합에 근사적으로 수렴하도록 서브선형 후회 항을 가진 혼합 정책을 도출합니다.
  • 타당한 문제의 경우, APPROPO는 dist(z(¯µ), C)가 온라인 학습자의 후회와 추정 오차에 의해 좌우되는 속도로 0으로 수렴하도록 보장합니다.
  • 화성 탐사차의 격자 세계 실험에서 APPROPO는 직교 사분면 제약에서 RCPO와 일치하고 RCPO로는 달성 불가능했던 다양성 제약을 강제할 수 있습니다.
  • 이 프레임워크는 일반적인 RL 방법(예: 배우-비평가)과 호환되며, 가능성 문제를 해결하기 위해 양의 반응 오라클을 활용할 수 있습니다.
  • 일반 볼록 집합으로의 확장 시, 원뿔 상승(conic lifting)을 통해 제약 C까지의 거리 최소화 근사 가능성을 보장합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.