QUICK REVIEW

[논문 리뷰] Learning and Transfer of Modulated Locomotor Controllers

Nicolas Heess, Gregory Wayne|arXiv (Cornell University)|2016. 10. 17.

Robotic Locomotion and Control참고 문헌 25인용 수 105

한 줄 요약

논문은 출력이 모듈화된 고수준 피질 제어기에 의해 조절되는 사전 학습된 저수준 척추 모듈을 갖춘 계층적 모터 제어 아키텍처를 제시하여, 엔드 투 엔드 학습이 실패하는 희박한 보상 환경에서도 다양한 보행 작업으로의 견고한 전이를 가능하게 한다.

ABSTRACT

We study a novel architecture and training procedure for locomotion tasks. A high-frequency, low-level "spinal" network with access to proprioceptive sensors learns sensorimotor primitives by training on simple tasks. This pre-trained module is fixed and connected to a low-frequency, high-level "cortical" network, with access to all sensors, which drives behavior by modulating the inputs to the spinal network. Where a monolithic end-to-end architecture fails completely, learning with a pre-trained spinal module succeeds at multiple high-level tasks, and enables the effective exploration required to learn from sparse rewards. We test our proposed architecture on three simulated bodies: a 16-dimensional swimming snake, a 20-dimensional quadruped, and a 54-dimensional humanoid. Our results are illustrated in the accompanying video at https://youtu.be/sboPYvhpraQ

연구 동기 및 목표

생물학적 분업인 척추 프리미티브와 cortical modulation 사이를 모방하는 모듈형, 계층적 모터 제어에 동기를 부여한다.
고정된 저수준 모듈이 고수준 제어기에 의해 조절되어 행동을 이끌어 내는 두 레벨의 제어기를 개발한다.
저수준 제어기를 고정하고 고수준 모듈레이터를 학습시켜 새로운 작업으로의 전이를 가능하게 한다.
여러 시뮬레이티드 바디와 희박한 보상 환경에서의 전이를 시연한다.

제안 방법

저수준 척추 제어기가 고주파수에서 작동하고 고유수용 입력을 사용하는 두 레벨 아키텍처를 제안하며, 고수준 피질 제어기가 느린 타임스케일로 전체 관찰을 사용한다.
고수준 제어기는 저수준 제어기를 편향하는 변조 신호 c_t를 출력하며; c_t는 매 K 스텝마다 업데이트되고 상관된 탐색을 유도하기 위해 확률적일 수 있다.
일반화된 정책 기울기(액터- Critic)와 가치 함수 베이스라인 및 lambda-리턴(R_t^λ)을 사용하여 예비 학습과 전이 단계를 모두 학습한다.
확률적 고수준 모듈레이션을 역전파하기 위해 재매개화(trick)을 채택하여 그래디언트가 고수준 제어기로 흐르도록 한다.
저수준 제어기를 단순 보행 작업에서 shaping 보상으로 예비 학습한 뒤 그것을 고정하고, 희박한 보상 환경에서의 전이 작업을 위한 고수준 모듈레이터를 학습한다.
모듈식 접근법을 엔드 투 엔드(FF/LSTM) 기초선과 비교하고, 사전 학습된 FF 네트워크를 재사용하거나 새로운 입력 매핑으로 초기화하는 변형과 비교한다.

실험 결과

연구 질문

RQ1고정된, 사전에 학습된 저수준 보행 원시가 상위 네트워크에 의해 조절될 때, 엔드 투 엔드 학습이 어려워하는 희박한 보상에서 복잡한 작업을 해결할 수 있는가?
RQ2고수준 제어기를 통한 계층적 노이즈가 액션 공간 노이즈만으로 얻는 것보다 더 일관되고 효과적인 탐색을 촉진하는가?
RQ3학습된 저수준 원시가 다양한 형태(뱀, 4족 보행, 인간형) 및 작업(목표 탐색, 협곡 횡단, 축구, 슬로럼) 간에 얼마나 전이될 수 있는가?
RQ4타임스케일 분리와 정보 은폐가 작업 간 로봄 locomotor 원시의 강건한 재사용에 어떻게 기여하는가?

주요 결과

사전 학습된 저수준 보행 제어기가 느린 고수준 제어기에 의해 변조될 때, 엔드 투 엔드 학습이 실패하는 여러 전이 작업을 해결한다.
계층적 노이즈는 프리미티브 수준에서 시공간적으로 상관된 탐색을 유도하여 희박한 보상 작업에서 탐색을 개선한다.
세 가지 바디(뱀, 네발 짐승, 휴머노이드)와 여러 작업(타깃 탐색, 협곡 횡단, 축구, 슬로럼)에서 모듈식 접근이 효과적인 전이를 보여주는 반면 엔드 투 엔드는 어려움을 겪는다.
저수준 프리미티브는 일관되고 재사용 가능한 보행 행동을 보여주며 다양한 목표를 달성하기 위해 불려지고 조절될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.