QUICK REVIEW

[논문 리뷰] One Policy to Control Them All: Shared Modular Policies for Agent-Agnostic Control

Wenlong Huang, Igor Mordatch|arXiv (Cornell University)|2020. 07. 09.

Reinforcement Learning in Robotics참고 문헌 36인용 수 26

한 줄 요약

이 논문은 공유 모듈형 정책(Shared Modular Policies, SMP)을 제안한다. SMP는 상호 모듈 간 메시지 전달을 통해 국소적 액추에이터 제어를 가능하게 하여 다양한 에이전트 형태를 제어할 수 있는 단일 재사용 가능한 신경망 모듈이다. 강화학습을 통해 훈련된 SMP는 이중보, 4족보, 점프형 등 평면 에이전트에서 조율된 이동을 달성하며, 재훈련이나 하이퍼파라미터 조정 없이도 새로운 형태의 에이전트로 일반화한다.

ABSTRACT

Reinforcement learning is typically concerned with learning control policies tailored to a particular agent. We investigate whether there exists a single global policy that can generalize to control a wide variety of agent morphologies -- ones in which even dimensionality of state and action spaces changes. We propose to express this global policy as a collection of identical modular neural networks, dubbed as Shared Modular Policies (SMP), that correspond to each of the agent's actuators. Every module is only responsible for controlling its corresponding actuator and receives information from only its local sensors. In addition, messages are passed between modules, propagating information between distant modules. We show that a single modular policy can successfully generate locomotion behaviors for several planar agents with different skeletal structures such as monopod hoppers, quadrupeds, bipeds, and generalize to variants not seen during training -- a process that would normally require training and manual hyperparameter tuning for each morphology. We observe that a wide variety of drastically diverse locomotion styles across morphologies as well as centralized coordination emerges via message passing between decentralized modules purely from the reinforcement learning objective. Videos and code at https://huangwl18.github.io/modular-rl/

연구 동기 및 목표

다양한 수의 지느러미와 상태/행동 공간 차원을 가진 극명하게 다른 형태의 에이전트에 대해 재사용 가능한 일반 목적의 제어 정책을 개발한다.
딥 강화학습에서 에이전트별로 특화된 정책 훈련의 한계를 극복한다. 이는 각 형태에 대해 별도의 훈련과 하이퍼파라미터 조정이 필요하기 때문이다.
중앙집중식 조율 없이도 분산형 모듈 정책과 메시지 전달이 다양한 이동 행동을 위한 통합 솔루션으로서 부상할 수 있는지 탐색한다.
훈련 중에 볼 수 없었던 새로운 형태의 에이전트에 대해 단일 정책이 일반화될 수 있는지 조사한다. 이는 로봇 제어를 위한 사전 훈련된 사전 지식을 가능하게 한다.

제안 방법

각 액추에이터당 하나의 동일한 국소적으로 연결된 신경망 모듈로 구성된 전역 제어 정책을 표현한다. 각 모듈은 오직 국소 센서 입력만을 처리한다.
학습 가능한 메시지 전달을 통한 모듈 간 상호작용을 가능하게 한다. 각 모듈은 인접한 액추에이터와 메시지 벡터를 수신 및 송신하여 에이전트의 형태 구조를 따라 정보가 전파되도록 한다.
메시지 전달이 상향 및 하향 모두에서 이루어지는 트리 구조의 그래프로 에이전트를 구성함으로써, 국소 상호작용에서 전역 조율이 자생적으로 발생하도록 한다.
전체 시스템을 표준 정책 기울기 강화학습으로 훈련하며, 모든 모듈 간 공유 파rameter를 통해 모듈성과 일반화를 강제한다.
에이전트 형태를 인코딩하고 연결된 액추에이터 간 메시지 전달을 가능하게 하는 그래프 네트워크 유사 아키텍처를 사용한다.
다양한 에이전트 유형(이중보, 4족보, 단일보)과 훈련 중에 볼 수 없었던 형태 변형에 대해 성능을 평가한다.

실험 결과

연구 질문

RQ1다른 지느러미 수와 상태/행동 공간 차원을 가진 다양한 에이전트 형태를 제어할 수 있는 단일 공유 정책 모듈이 가능한가?
RQ2중앙집중식 제어 없이도 분산형 모듈 간 메시지 전달이 전역적으로 조율된 이동 행동을 유도할 수 있는가?
RQ3특정 형태 집합에서 훈련된 정책이 재훈련이나 하이퍼파라미터 조정 없이도 새로운, 볼 수 없었던 형태 변형으로 일반화될 수 있는가?
RQ4양방향 메시지 전달(상향 및 하향)이 다양한 에이전트 간 복잡한 조율 행동을 가능하게 하는 데 어떤 역할을 하는가?
RQ5정책 아키텍처의 모듈성이 다양한 감각운동 구성이 있는 에이전트 간 일반화와 재사용을 지원하는 데 어떻게 기여하는가?

주요 결과

왼쪽 발을 루트로 사용할 경우 SMP 정책는 평균 훈련 보상 3709.87 ± 580.87을 달성하여, 토글 루트 변형(3215.04 ± 447.82)과 통합 기반 기준선(3592.70 ± 111.13)을 모두 초월했다.
메시지 전달은 일관되고 리듬 잡힌 이동 패턴의 유도를 가능하게 했으며, 보행 주기와 시간적으로 일치하는 t-SNE 시각화를 통해 확인되었다.
하향식 메시지 전달을 통해 모든 지느러미로부터 정보를 집계한 몸통 메시지는 전역 상태 정보를 캡처했고, 시간이 지남에 따라 에이전트 자세와 강하게 상관관계를 보였다.
훈련 중에 볼 수 없었던 형태 변형으로도 정책는 성공적으로 일반화되었으며, 다양한 에이전트 구조 간에 강건성과 이식 가능성을 입증했다.
상향 및 하향 메시지 전달이 모두 조율에 필수적이었으며, 메시지 전달을 제거한 추상화 실험에서 성능이 심각하게 악화됨을 확인했다.
비록 분산형이고 국소 중심이지만, 학습된 메시지 전달을 통해 중심집중식 조율과 유사한 성능을 달성했으며, 이는 복잡한 전역 행동이 국소적 모듈형 상호작용에서 유도될 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.