QUICK REVIEW

[논문 리뷰] Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition

Justin Fu, Avi Singh|arXiv (Cornell University)|2018. 05. 01.

Neural dynamics and brain function인용 수 30

한 줄 요약

이 논문은 목표 상태에서의 보상 함수를 수동으로 지정하지 않고, 목표를 확률적 사건으로 모델링함으로써 전문가의 전체 시퀀스가 아닌 목표 상태에서 데이터 기반으로 보상 함수를 학습하는 데이터 기반 프레임워크인 이벤트를 고려한 변분 역제어를 제안한다. 이는 이미지와 같은 고차원 관측 공간에서도 효과적인 강화 학습을 가능하게 하며, 수작업으로 지정된 보상 없이도 뛰어난 성능을 달성한다.

ABSTRACT

The design of a reward function often poses a major practical challenge to real-world applications of reinforcement learning. Approaches such as inverse reinforcement learning attempt to overcome this challenge, but require expert demonstrations, which can be difficult or expensive to obtain in practice. We propose inverse event-based control, which generalizes inverse reinforcement learning methods to cases where full demonstrations are not needed, such as when only samples of desired goal states are available. Our method is grounded in an alternative perspective on control and reinforcement learning, where an agent's goal is to maximize the probability that one or more events will happen at some point in the future, rather than maximizing cumulative rewards. We demonstrate the effectiveness of our methods on continuous control tasks, with a focus on high-dimensional observations like images where rewards are hard or even impossible to specify.

연구 동기 및 목표

전문가의 시퀀스가 비용이 많이 들거나 확보하기 어려운 실제 강화 학습 응용 분야에서 보상 함수를 정의하는 데 도전하는 것.
전체 경로가 아닌 확률적 사건 기반 목표로 초점을 옮겨 역강화 학습을 일반화하는 것.
보상 함수를 수작업으로 지정하기 어려운 고차원 관측 공간(예: 이미지)에서도 효과적인 학습을 가능하게 하는 것.
누적 보상이 아닌 향후 원하는 사건이 발생할 확률을 최대화하는 프레임워크를 개발하는 것.

제안 방법

이 방법은 에이전트의 목표를 향후 어떤 시점에 하나 이상의 사건이 발생할 확률을 최대화하는 방식으로 모델링한다.
목표 상태 데이터로부터 진짜 역제어 정책을 근사하기 위해 변분 추론 프레임워크를 사용한다.
보상 함수를 직접 지정하지 않고 사건 발생 확률을 통해 암묵적으로 정의한다.
딥 네ural 네트워크를 활용해 이미지와 같은 고차원 관측을 처리하고 사건 발생 확률을 예측한다.
에이전트가 목표 사건이 발생할 가능성이 높은 상태에 도달하도록 유도하기 위해 가능도 기반 목적 함수를 사용해 프레임워크를 훈련시킨다.
전체 전문가 시퀀스가 필요로 하지 않고, 긍정적인 목표 상태 샘플만으로도 훈련할 수 있도록 하여 기존의 역강화 학습을 일반화한다.

실험 결과

연구 질문

RQ1전체 전문가 시퀀스가 없이 목표 상태 데이터만으로 효과적인 정책을 학습할 수 있는가?
RQ2보상 함수를 수작업으로 지정하기 어려운 고차원 관측 공간(예: 이미지)에서는 어떻게 정의할 수 있는가?
RQ3전체 경로가 확보되지 않은 상황에서 이벤트 기반 목표 모델링이 전통적인 역강화 학습보다 우월한가?
RQ4변분 추론 프레임워크는 부분적인 감독 하에 어떻게 강력한 역제어를 가능하게 하는가?
RQ5복잡한 관측이 있는 연속 제어 과제에서 이벤트 기반 제어의 성능은 어떠한가?

주요 결과

이 방법은 전문가 시퀀스가 없이도 목표 상태 샘플만으로 연속 제어 과제에서 정책을 성공적으로 학습시켰다.
기존의 보상 설계가 실패하는 이미지 기반 환경과 같은 고차원 관측 환경에서도 뛰어난 성능을 달성했다.
희박한 목표 데이터만 존재하는 상황에서도 이벤트 기반 수식이 효과적인 학습을 가능하게 했다.
전체 행동 클로닝이 아닌 사건 발생 확률에 초점을 맞추어 표준 역강화 학습을 넘어서는 일반화를 달성했다.
실험 결과, 전체 시퀀스가 필요한 기준 방법과 비교해 성능이 유사하거나 이를 초월하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.