QUICK REVIEW

[논문 리뷰] Generalizing Skills with Semi-Supervised Reinforcement Learning

Chelsea Finn, Tianhe Yu|arXiv (Cornell University)|2016. 12. 01.

Reinforcement Learning in Robotics참고 문헌 34인용 수 34

한 줄 요약

이 논문은 레이블이 부여된 환경(보상 신호가 존재함)에서 학습된 정책을 보상 신호가 없는 실세계 환경으로 일반화할 수 있도록 허용하는 준감독 강화학습(SSRL)을 소개한다. 레이블이 부여된 MDP에서의 이전 경험을 바탕으로 역강화학습(IRL)을 사용해 레이블이 없는 MDP에서 보상 함수를 추론함으로써 제안된 S3G 방법은 정책 일반화를 향상시켜 연속 제어 과제에서 표준 RL과 감독 보상 회귀보다 뛰어난 성능을 보인다. 특히 시각 입력이 있는 과제에서 성능이 뛰어나다.

ABSTRACT

Deep reinforcement learning (RL) can acquire complex behaviors from low-level inputs, such as images. However, real-world applications of such methods require generalizing to the vast variability of the real world. Deep networks are known to achieve remarkable generalization when provided with massive amounts of labeled data, but can we provide this breadth of experience to an RL agent, such as a robot? The robot might continuously learn as it explores the world around it, even while deployed. However, this learning requires access to a reward function, which is often hard to measure in real-world domains, where the reward could depend on, for example, unknown positions of objects or the emotional state of the user. Conversely, it is often quite practical to provide the agent with reward functions in a limited set of situations, such as when a human supervisor is present or in a controlled setting. Can we make use of this limited supervision, and still benefit from the breadth of experience an agent might collect on its own? In this paper, we formalize this problem as semisupervised reinforcement learning, where the reward function can only be evaluated in a set of "labeled" MDPs, and the agent must generalize its behavior to the wide range of states it might encounter in a set of "unlabeled" MDPs, by using experience from both settings. Our proposed method infers the task objective in the unlabeled MDPs through an algorithm that resembles inverse RL, using the agent's own prior experience in the labeled MDPs as a kind of demonstration of optimal behavior. We evaluate our method on challenging tasks that require control directly from images, and show that our approach can improve the generalization of a learned deep neural network policy by using experience for which no reward function is available. We also show that our method outperforms direct supervised learning of the reward.

연구 동기 및 목표

보상 함수가 존재하지 않는 실세계 환경에서 정책 일반화 문제를 해결하기 위해, 보상이 존재하는 레이블이 부여된 설정에서 사전 학습된 바를 활용한다.
지속적인 실세계 경험은 수집되지만 보상 신호가 희박하거나 실현 가능하지 않은 로봇 공학 및 기타 도메인에서의 평생 강화학습을 가능하게 한다.
레이블이 부여된(보상이 존재함) 및 레이블이 없는(보상이 존재하지 않음) 환경의 혼합에서 학습하는 새로운 학습 프레임워크인 준감독 강화학습(SSRL)을 체계화한다.
역강화학습을 통해 레이블이 없는 경험을 정책 학습뿐만 아니라 보상 함수 형상 조정에도 활용함으로써 정책 일반화를 향상시킨다.

제안 방법

준감독 강화학습(SSRL)을 설정으로 정의하여, 소량의 레이블이 부여된 MDP(알려진 보상이 존재함)에서 정책을 학습하고, 보상이 없는 더 큰 범위의 레이블이 없는 MDP로 일반화하도록 한다.
레이블이 없는 MDP에서 보상 함수를 추론하기 위해 역강화학습(IRL)을 사용하며, 이때 레이블이 부여된 MDP에서의 에이전트 자체의 행동 기록을 전문가의 예시로 활용한다.
추론된 보상 함수를 사용해 레이블이 없는 환경에서 정책을 학습함으로써 직접적인 보상 감독 없이도 일반화를 가능하게 한다.
레이블이 부여된 MDP에서의 감독적 모방 학습과 레이블이 없는 MDP에서의 자기주도 보상 추론을 결합하며, 정책과 보상 함수의 공동 최적화를 수행한다.
시각 기반 과제의 경우, 레이블이 부여된 MDP에서 RL을 통해 시각적 특징을 사전 학습하고, 이를 레이블이 없는 설정에서 정책 및 보상 네트워크의 초기화에 사용한다.
엔드 투 엔드 미세조정 및 고정된 시각적 특징을 사용한 평가를 통해, 특징 적응에 대한 강건성을 입증한다.

실험 결과

연구 질문

RQ1소량의 레이블이 부여된 환경에서 학습된 정책이 보상 신호가 없는 광범위한 레이블이 없는 실세계 환경으로 일반화될 수 있는가?
RQ2레이블이 부여된 MDP에서의 이전 경험을 예시로 삼아 역강화학습(IRL)을 사용해 레이블이 없는 MDP에서 보상 함수를 효과적으로 추론할 수 있는가? 이는 정책 일반화를 향상시키는 데 기여하는가?
RQ3레이어블이 없는 경험을 보상 함수 형상 조정에 활용할 경우, 정책 학습 전용 또는 감독 보상 회귀 전용으로 사용할 때보다 더 나은 일반화 성능를 얻을 수 있는가?
RQ4완전한 보상 감독이 없는 상황에서, 샘플 효율성과 표현력이 제한된 조건에서 추론된 보상 함수가 진짜 보상 함수를 초월할 수 있는가?

주요 결과

S3G는 장애물 회피, 2링크 도달, 하프체타 등 평가된 모든 과제에서 표준 RL 정책 학습(레이블이 있는 데이터만 사용)보다 뛰어나며, 알려지지 않은 상태 변화에 대한 일반화 능력 향상을 입증한다.
시각 기반 2링크 도달 과제에서 S3G는 92%의 성공률을 기록하여 감독 보상 회귀의 85%와 표준 RL의 69%를 초월하며, 역강화학습 기반 보상 형상 조정의 이점을 보여준다.
장애물 회피 과제에서 S3G는 79%의 성공률을 기록하여 표준 RL의 65%와 감독 보상 회귀의 29%를 뛰어넘으며, 경험에서의 보상 추론이 일반화 능력을 향상시킨다는 것을 시사한다.
특정 조건 하에서 S3G는 2링크 도약 과제에서 오라클 성능(80%)을 초월하며, 제한된 데이터와 모델 용량 조건에서 진짜 보상보다 더 잘 형상화된 보상 함수일 수 있음을 시사한다.
시각적 특징을 고정한 상태에서도 S3G는 잘 일반화되며, 이는 레이블이 부여된 설정에서 RL을 통해 학습된 표현이 실세계 환경으로 이식 가능하고 강건하다는 것을 의미한다.
결과적으로, 데이터 및 계산 자원 제약 조건에서 보상 형상 조정을 위해 이전 경험에서 역강화학습을 활용하는 것이 직접적인 감독 보상 회귀보다 더 효과적일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.