QUICK REVIEW

[논문 리뷰] Self-supervised Learning of Image Embedding for Continuous Control

Carlos Florensa, Jonas Degrave|arXiv (Cornell University)|2019. 01. 03.

Reinforcement Learning in Robotics참고 문헌 29인용 수 30

한 줄 요약

이 논문은 보상 형상화나 작업별 특화된 감독 없이도 원시 시각 관측에서 직접 이미지 임베딩과 목표도달 정책을 학습하는 자기지도 학습 강화학습 방법을 제안한다. 목표를 상태 간 도달 시간 최소화로 정의하고, 모델 자유형과 모델 기반 강화학습을 연결하는 구조적 Q함수를 사용함으로써, 시뮬레이션된 로봇 환경에서 다양한 작업에 대해 효과적인 제로샷 일반화를 달성한다.

ABSTRACT

Operating directly from raw high dimensional sensory inputs like images is still a challenge for robotic control. Recently, Reinforcement Learning methods have been proposed to solve specific tasks end-to-end, from pixels to torques. However, these approaches assume the access to a specified reward which may require specialized instrumentation of the environment. Furthermore, the obtained policy and representations tend to be task specific and may not transfer well. In this work we investigate completely self-supervised learning of a general image embedding and control primitives, based on finding the shortest time to reach any state. We also introduce a new structure for the state-action value function that builds a connection between model-free and model-based methods, and improves the performance of the learning algorithm. We experimentally demonstrate these findings in three simulated robotic tasks.

연구 동기 및 목표

작업별 보상이나 엔지니어링된 특징 없이 원시 이미지 관측에서 제어 정책을 엔드 투 엔드로 학습할 수 있도록 하는 것.
유클리드 거리가 상태 간 최소 시간 스텝 수에 해당하는 일반 목적의 이미지 임베딩을 학습하는 것.
모델 자유형과 모델 기반 강화학습을 연결하는 새로운 Q함수 아키텍처를 개발하는 것.
자기지도 상호작용만을 사용하여 훈련 중에 보지 못한 상태 전이에 대해 정책의 제로샷 일반화를 가능하게 하는 것.
외부 감독 없이도 이식 가능한 표현과 제어 원천을 시뮬레이션된 로봇 작업에서 학습할 수 있음을 입증하는 것.

제안 방법

목표 도달 문제를 상태 간 도달 시간 최소화로 설정하고, 과거 관측으로 트레이젝터리를 재라벨링하는 자기지도 보상 기반으로 접근한다.
목표 상태에 도달하는 가치를 임베딩 거리의 함수로 모델링하는 구조적 Q함수를 도입하여, 모델 자유형 알고리즘에 모델 기반의 인덕티브 비아스를 효과적으로 통합한다.
모든 트레이젝터리가 도달 가능한 목표 수를 최대화하도록 재라벨링하는 오프-폴리시 딥 강화학습을 사용한다.
신경망이 관측을 공통 임베딩 공간으로 인코딩하여 L2 거리가 스텝 수에서의 최단 경로 길이를 근사하도록 한다.
현재 관측과 목표 관측에 조건화된 정책을 사용하여, 훈련 중에 보지 못한 목표 상태로의 제로샷 전이를 가능하게 한다.
학습 중 탐색과 안정성을 향상시키기 위해 최대 엔트로피 정책 최적화(MPO)를 활용한다.

실험 결과

연구 질문

RQ1환경과의 자기지도 상호작용과 원시 이미지 관측만으로도 어떤 상태에서나 다른 상태로 도달할 수 있는 정책을 훈련시킬 수 있는가?
RQ2자기지도 임베딩 공간을 학습시켜, 임베딩된 상태 간 유클리드 거리가 한 상태에서 다른 상태로 도달하는 데 필요한 최소 시간 스텝 수에 해당하도록 할 수 있는가?
RQ3모델 기반의 인덕티브 비아스를 통합한 구조적 Q함수가 모델 자유형 강화학습에서 표본 효율성과 최종 성능을 향상시키는가?
RQ4학습 중에 만난 바 없는 새로운 목표 상태로 학습된 표현과 정책이 일반화되는가?
RQ5연속 제어 작업에서 이러한 자기지도 접근의 실패 모드는 무엇이며, 어떻게 이를 완화할 수 있는가?

주요 결과

자기지도 방법은 상태 간 거리가 한 상태에서 다른 상태로 도달하는 데 필요한 최소 스텝 수에 상응하는 상태 임베딩을 성공적으로 학습하였으며, 나머지 시간 스텝 수에 따라 구조적 Q함수가 지수 감소하는 것으로 확인되었다.
제안된 구조적 Q함수는 진정한 보상에 접근할 수 없더라도 기존의 모델 자유형 기준선보다 학습 속도와 최종 성능이 뛰어나게 했다.
훈련 중에 보지 못한 새로운 목표 상태로 정책이 일반화되어, 이전에 방문하지 않은 상태로의 제로샷 전이가 가능했다.
벽이 있는 점질량 환경에서 임베딩 기반 거리는 나머지 시간 스텝 수에 따라 지수 감소하며, 이는 모델이 도달 가능성의 의미 있는 개념을 학습했다는 것을 시사한다.
목표 주변에서의 진동과 U자형 환경에서 먼 상태에 도달하기 어려운 문제점은 속도 정보 부족과 고차원 상태 공간에서의 탐색 부족과 관련된 제한성을 보여준다.
비가역 환경에서는 방법이 실패함을 확인하였으며, 이는 물체 던지기나 변형을 포함한 비가역 역학을 포함한 작업에서는 비대칭 거리 측정이 필요함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.