QUICK REVIEW

[논문 리뷰] Black-Box Policy Search with Probabilistic Programs

Jan-Willem van de Meent, Brooks Paige|arXiv (Cornell University)|2015. 07. 16.

Reinforcement Learning in Robotics참고 문헌 45인용 수 19

한 줄 요약

이 논문은 블랙박스 변분 추론(BBVI)를 사용하여 주변 가능도에 대한 확률적 기반의 경사 상승법을 수행함으로써 파라미터를 학습하는 블랙박스 정책 학습(BBPL) 방법을 제안한다. 이 방법은 정책을 확률적 프로그램으로 표현함으로써 복잡한 순차적 의사결정 문제에서 모델에 종속되지 않고 자동으로 정책을 학습할 수 있도록 한다. 캐나다 여행자 문제, RockSample, Guess Who 도메인에서 기존의 기준 대비 뛰어난 성능을 보여주었다.

ABSTRACT

In this work, we explore how probabilistic programs can be used to represent policies in sequential decision problems. In this formulation, a probabilistic program is a black-box stochastic simulator for both the problem domain and the agent. We relate classic policy gradient techniques to recently introduced black-box variational methods which generalize to probabilistic program inference. We present case studies in the Canadian traveler problem, Rock Sample, and a benchmark for optimal diagnosis inspired by Guess Who. Each study illustrates how programs can efficiently represent policies using moderate numbers of parameters.

연구 동기 및 목표

순차적 의사결정 문제에서 파라미터화된 정책을 표현하고 학습하기 위한 일반 목적의 프레임워크를 개발하는 것.
블랙박스 변분 추론(BBVI)과 정책 탐색을 융합하여 도메인 전용 알고리즘 설계 없이도 자동으로 파라미터를 학습할 수 있도록 하는 것.
확률적 프로그램이 복잡한 정책을 압축적이고 표현력 있게 표현할 수 있으며, 효율적이고 모델에 종속되지 않는 학습을 지원할 수 있음을 보여주는 것.
표준 기준 대비 성능 향상을 보여주기 위해 고전적인 강화 학습 및 최적 진단 문제에서 이 방법을 평가하는 것.

제안 방법

행동 선택 전략을 정의하기 위해 확률적 프로그래밍 문법을 사용하는 조정 가능한 파라미터를 가진 스토케스틱 프로그램으로 정책을 표현하는 것.
보상 값을 베이지안 모델에서 가능도 가중치로 간주함으로써 주변 가능도 최대화 문제로 정책 학습을 공식화하는 것.
주변 가능도에 대한 확률적 기반의 경사 상승법을 수행하기 위해 블랙박스 변분 추론(BBVI)을 적용함으로써 정책 파라미터의 엔드 투 엔드 학습을 가능하게 하는 것.
정책 내부 논리의 기울기 계산이 필요 없도록 추론의 효율성을 높이기 위해 추론 보상 기법을 사용하는 것.
기울기 기반 최적화를 통해 자동 추론과 파라미터 학습이 가능한 확률적 프로그래밍 시스템(Annglican)에 이 프레임워크를 구현하는 것.
확률적 프로그램의 구조를 활용하여 도메인 특화된 가정을 통합함으로써 검색 공간을 줄이면서도 표현력을 유지하는 것.

실험 결과

연구 질문

RQ1확률적 프로그램을 사용하여 압축적이고 표현력 있게 다양한 파라미터화된 정책을 표현할 수 있는가?
RQ2블랙박스 변분 추론은 임의의 스토케스틱 시뮬레이터에서 정책 탐색을 수행하기 위해 어떻게 적응시킬 수 있는가?
RQ3이 접근 방식은 부분 관측 가능한 구조적 의사결정 문제에서 표준 정책 기울기 및 히우리스틱 기준 대비 우수한 성능을 낼 수 있는가?
RQ4프로그램의 구조를 통해 도메인 지식을 통합함으로써 학습된 정책이 에피소드 간에 얼마나 잘 일반화되는가?
RQ5고차원적이거나 복잡한 정책 공간에서 이 방법의 학습 효율성과 성능은 어떻게 스케일링되는가?

주요 결과

BBPL 방법은 도로 차단 상황에 적응하는 엣지 선호도를 학습함으로써 캐나다 여행자 문제에서 거의 최적에 가까운 성능을 달성하였다.
RockSample 도메인에서 학습된 정책는 구조적인 행동을 보였다 — 5×5 경우에서 상단 왼쪽 암석을 상단 중앙 암석보다 먼저 방문하였고, 10×10 경우에서는 왼쪽 가장자리 암석을 따라 결정적 경로를 따르는 방식이었다.
Guess Who 도메인에서 학습된 정책는 무작위 및 단기 정보 수익 기반 기준 대비 뛰어난 성능을 보였으며, 학습된 가중치를 가진 단순 히우리스틱 정책조차도 기존의 표준 접근 방식을 능가할 수 있음을 보여주었다.
독립적인 학습 실행 간에 일관된 성능을 유지하며 보상 수렴을 달성함으로써 강건성과 안정적인 학습을 보였다.
확률적 프로그램의 사용은 정책 표현을 간결하게 만들었고, 결정 논리의 하드코딩 없이도 자동 파라미터 학습을 가능하게 하여 프레임워크의 일반성과 표현력을 입증하였다.
결과적으로, 확률적 프로그래밍과 BBVI를 융합한 접근 방식은 부분 관측 가능한 환경에서 전통적인 정책 기울기 방법에 비해 확장 가능하고 유연한 대안을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.