[논문 리뷰] Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping
논문은 BiPaRS를 소개합니다. 이는 주어진 shaping 보상 함수를 학습하는 shaping 가중치 함수를 통해 적응적으로 활용하는 이층 최적화 프레임워크이며, 세 가지 gradient-based 알고리즘(EM, MGL, IMGL)과 CartPole 및 MuJoCo에서의 실증 평가를 통해 유익한 shaping 보상을 증폭하고 해로운 보상을 완화할 수 있음을 보여줍니다.
Reward shaping is an effective technique for incorporating domain knowledge into reinforcement learning (RL). Existing approaches such as potential-based reward shaping normally make full use of a given shaping reward function. However, since the transformation of human knowledge into numeric reward values is often imperfect due to reasons such as human cognitive bias, completely utilizing the shaping reward function may fail to improve the performance of RL algorithms. In this paper, we consider the problem of adaptively utilizing a given shaping reward function. We formulate the utilization of shaping rewards as a bi-level optimization problem, where the lower level is to optimize policy using the shaping rewards and the upper level is to optimize a parameterized shaping weight function for true reward maximization. We formally derive the gradient of the expected true reward with respect to the shaping weight function parameters and accordingly propose three learning algorithms based on different assumptions. Experiments in sparse-reward cartpole and MuJoCo environments show that our algorithms can fully exploit beneficial shaping rewards, and meanwhile ignore unbeneficial shaping rewards or even transform them into beneficial ones.
연구 동기 및 목표
- 보상 형성을 강화학습(RL)에 도메인 지식을 주입하는 수단으로서 동기를 부여한다.
- 기존 shaping 보상을 적응적으로 활용하는 문제를 이층 최적화로 공식화한다.
- 참된 보상 극대화를 위한 shaping 가중치를 최적화하는 gradient 기반 방법을 개발한다.
- 본 접근법이 유익한 shaping 신호를 식별하고 해로운 신호를 억제하거나 변형할 수 있음을 입증한다.
제안 방법
- 수정된 보상을 r' = r + z_phi(s,a) f(s,a)로 모형화한다.
- 이층 목적을 정의한다: 실제 보상 J(z_phi)를 최대화하는 한편, 수정된 보상을 최적화하는 정책들이 theta에 대해 최대화하는 tilde{J}를 달성한다.
- phi에 대한 J(z_phi)의 기울기를 도출하고 Explicit Mapping(EM), Meta-Gradient Learning(MGL), Incremental Meta-Gradient Learning(IMGL)의 세 가지 기울기 근사 알고리즘을 제안한다.
- (4)에 대한 기울기 표현식과 (5) 및 (6)-(9)의 업데이트 규칙을 제시하고, [0m[0m[0m[0m의 수식을 포함한 기울기 표현을 제공한다.
- z_phi를 확장 상태 공간 S_z와 하이퍼정책(Hyper-policy) 형태로 명시적으로 매핑하는 것을 논의한다.
- 복잡도 고려사항과 알고리즘적 단계들을 보충 자료에 제시한다.
실험 결과
연구 질문
- RQ1이층 최적화 프레임워크가 유익한 보상 형성 신호와 비유익한 신호를 효과적으로 구분할 수 있는가?
- RQ2보상 형성 가중치 매개변수에 대한 진짜 보상의 기울기를 어떻게 계산하고 근사할 수 있는가?
- RQ3경사 기반 알고리즘(EM, MGL, IMGL)이 정책이 shaping 보상을 활용하도록 하면서 해로운 보상은 무시하거나 변형하도록 할 수 있는가?
- RQ4제안된 메서드가 간단한 환경(CartPole)과 더 복잡한 환경(MuJoCo)에서, 또한 해로운 형성 신호나 무작위 형성 신호에 대한 적응성 실험에서 효과적인가?
- RQ5상태-행동 의존 shaping 가중치가 균일 가중치보다 유익한 혼합 상황에서 유리한가?
주요 결과
- BiPaRS가 shaping 보상의 품질을 식별하고 유익한 신호를 적응적으로 활용할 수 있다.
- 방법들이 비유익한 shaping 보상을 무시하거나 이를 유익한 신호로 변환할 수 있다.
- BiPaRS 변형들이 CartPole 및 MuJoCo 과제에서 naive shaping 및 DPBA 대비 학습 성능을 향상시킨다.
- 적응성 실험에서 이 접근법은 해로운 shaping 보상의 영향을 줄이고 기준선 성능에 가깝거나 이를 능가하는 성능을 유지한다.
- 상태-행동 의존 shaping 가중치는 단일 균일 가중치보다 혼합 이익 시나리오에서 우수한 성능을 보일 수 있다.
- 제안된 방법들이 전역적으로 균일하지 않고 지역 상태-행동 특성을 반영하는 shaping 가중치를 산출한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.