Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforcement Learning via Fenchel-Rockafellar Duality

Ofir Nachum, Bo Dai|arXiv (Cornell University)|2020. 01. 07.
Reinforcement Learning in Robotics참고 문헌 52인용 수 25
한 줄 요약

이 논문은 펜첼-로카타렐라 이중성에 기반한 통합 프레임워크를 제안하여, 볼록 최적화를 통한 행동 무관 오프라인 정책 평가 및 온라인 정책 기울기 추정을 가능하게 한다. 정규화된 이중 형식이 비제약 이중 문제를 유도함으로써, 이론적 보장과 함께 온라인/오프라인, 할인/할인되지 않은 설정에서 안정적이고 확장 가능한 강화학습 알고리즘을 제공한다.

ABSTRACT

We review basic concepts of convex duality, focusing on the very general and supremely useful Fenchel-Rockafellar duality. We summarize how this duality may be applied to a variety of reinforcement learning (RL) settings, including policy evaluation or optimization, online or offline learning, and discounted or undiscounted rewards. The derivations yield a number of intriguing results, including the ability to perform policy evaluation and on-policy policy gradient with behavior-agnostic offline data and methods to learn a policy via max-likelihood optimization. Although many of these results have appeared previously in various forms, we provide a unified treatment and perspective on these results, which we hope will enable researchers to better use and apply the tools of convex duality to make further progress in RL.

연구 동기 및 목표

  • 강화학습 분야의 다양한 결과—특히 정책 평가, 정책 최적화, 오프라인 강화학습—을 펜첼-로카타렐라 이중성의 이론적 프레임워크 아래 통합하기 위해.
  • 시간 차분 방법의 불안정성과 발산 문제를 해결하기 위해, 강화학습 문제를 이중 기반 재구성으로 볼록 최적화 문제로 재정의하기 위해.
  • 행동 정책에 대한 지식이 필요로 하지 않는 오프라인 강화학습을 가능하게 하기 위해, 행동 정책에 무관한 이중 목표를 유도하기 위해.
  • 볼록 정규화를 통한 체계적인 방법으로 안정적이고 비제약 이중 문제를 유도함으로써, 기존 선형 프로그래밍 접근 방식을 향상시키기 위해.
  • 최적화 및 강화학습 공동체 간 격차를 해소하기 위해, 이중성과 정규화를 활용한 새로운 강화학습 알고리즘 유도를 위한 일반화 가능한 프rotocol를 제공하기 위해.

제안 방법

  • 선형 제약 조건과 볼록 목표 함수를 갖는 제약 조건이 있는 볼록 최적화 문제로 정책 평가 및 최적화를 공식화하기 위해.
  • 펜첼-로카타렐라 이중성을 적용하여 원래 문제를 비제약 이중 문제로 변환함으로써, 해법 가능성과 안정성을 향상시키기 위해.
  • 강화학습 문제의 강력한 이중성과 매끄러운 비제약 이중 문제를 확보하기 위해 원래 목표 함수에 볼록 정규화 항(예: 음의 엔트로피, 제곱항)을 도입하기 위해.
  • 정책 최적화를 위한 이중 목표, 예를 들어 $\min_V \mathbb{E}_{d^\mathcal{D}}[\exp(R(s,a) + \mathcal{T}V(s,a) - V(s))]$ 를 유도하기 위해, 최대 우도 정책 복원을 가능하게 한다.
  • 라그랑주 완화와 단스킨 정리를 사용하여, 오프라인 설정에서도 이중 목표에서 정책 기울기를 도출하기 위해.
  • 예를 들어 $\chi^2$-발산 기반 GenDICE 목표와 같이 정규화를 통해 할인되지 않은 설정으로 일반화하여, 최적 정책 추정의 일致성을 유지하기 위해.

실험 결과

연구 질문

  • RQ1펜첼-로카타렐라 이중성이 강화학습 문제에 대해 안정적이고 비제약 이중 형식을 체계적으로 도출하기 위해 어떻게 적용될 수 있는가?
  • RQ2이중성과 정규화를 활용함으로써 행동 정책에 대한 지식 없이도 오프라인 정책 평가를 수행할 수 있는가?
  • RQ3볼록 정규화는 제약 조건이 있는 원래 문제를 확률적 최적화에 적합한 비제약 이중 문제로 변환하는 데 어떤 역할을 하는가?
  • RQ4이중 기반 형식은 전통적인 시간 차분 방법과 선형 프로그래밍 접근 방식과 비교해 안정성과 샘플 효율성 측면에서 어떻게 다른가?
  • RQ5동일한 이중 프레임워크를 온라인 및 오프라인 설정에서 정책 최적화 및 이mitation 학습으로 확장할 수 있는가?

주요 결과

  • 정규화된 정책 평가 문제의 펜첼-로카타렐라 이중 문제는 비제약이므로, 제약 조건 처리 없이도 안정적이고 확장 가능한 최적화를 가능하게 한다.
  • 행동 정책에 무관한 오프라인 정책 평가가 데이터 분포 $d^\mathcal{D}$ 에만 의존하는 이중 형식을 통해 가능해진다.
  • 최적의 이중 변수 $\zeta^*(s,a) = \frac{d^\pi(s,a)}{d^\mathcal{D}(s,a)}$ 는 진짜 상태-행동 방문 비율을 복원하며, 정확한 정책 가치 추정을 가능하게 한다.
  • 이중 목표 $\min_V \mathbb{E}_{d^\mathcal{D}}[\exp(R(s,a) + \mathcal{T}V(s,a) - V(s))]$ 를 통한 정책 최적화는 최대 우도 정책 복원 규칙을 유도한다.
  • 원래 문제에서의 정규화(예: $\ell_2$ 또는 엔트로피)는 최적의 이중 해를 유지하므로, 함수 근사가 적용된 경우에도 안정적인 학습이 가능하다.
  • 예를 들어 $\chi^2$-발산 정규화를 통해 할인되지 않은 설정으로 일반화되며, 보장된 일致성을 유지하는 GenDICE 목표를 복원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.