QUICK REVIEW

[논문 리뷰] MDP Homomorphic Networks: Group Symmetries in Reinforcement Learning

Elise van der Pol, Daniel E. Worrall|UvA-DARE (University of Amsterdam)|2020. 06. 30.

Reinforcement Learning in Robotics참고 문헌 44인용 수 47

한 줄 요약

MDP 동형 네트워크를 도입하여 정책 및 가치 네트워크에서 그룹 구조적 등변성을 강제하고, 대칭 상태-행동 쌍 간 매개변수 공유를 가능하게 하여 DRL 태스크의 학습 속도를 높인다.

ABSTRACT

This paper introduces MDP homomorphic networks for deep reinforcement learning. MDP homomorphic networks are neural networks that are equivariant under symmetries in the joint state-action space of an MDP. Current approaches to deep reinforcement learning do not usually exploit knowledge about such structure. By building this prior knowledge into policy and value networks using an equivariance constraint, we can reduce the size of the solution space. We specifically focus on group-structured symmetries (invertible transformations). Additionally, we introduce an easy method for constructing equivariant network layers numerically, so the system designer need not solve the constraints by hand, as is typically done. We construct MDP homomorphic MLPs and CNNs that are equivariant under either a group of reflections or rotations. We show that such networks converge faster than unstructured baselines on CartPole, a grid world and Pong.

연구 동기 및 목표

MDP에서 대칭성을 활용하고 이를 형식화하여 해 공간을 축소하는 동기를 부여한다.
상태-행동 대칭 그룹에 대해 등변인(neural networks)을 도입한다.
등변 네트워크 층을 자동으로 구성하는 실용적인 방법을 제공한다.
대칭성을 활용하여 표준 RL 벤치마크에서 수렴 속도 향상을 입증한다.

제안 방법

결합된 상태-행동 공간에서 MDP 호모모피즘과 그룹 구조화된 대칭을 정의한다.
리프트된 정책이 불변임을 보이고 문제를 그룹 등변 네트워크로 동등하게 형식화한다.
임의의 가중치를 등변 부분공간으로 투사하는 대칭화기(symmetrizer)를 사용해 등변 층을 구성하는 수치적 절차를 제안한다.
정책 네트워크를 데이터에서 학습된 등변 기저 가중치의 선형 결합으로 표현한다.
CartPole, grid world, 및 Pong에 걸쳐 MLPs, CNNs 및 등변 특징 추출기에 프레임워크를 적용한다.

실험 결과

연구 질문

RQ1MDP 대칭을 정책/가치 공간을 축소하기 위한 그룹 구조의 MDP 호모모피즘으로 어떻게 형식화할 수 있는가?
RQ2직접 제약을 손으로 도출하지 않고도 이러한 대칭에 대해 등변인으로 자동으로 구성되는 신경망이 가능할까?
RQ3대칭 RL 태스크에서 등변(MDP 호모모픽) 네트워크가 비등변 기저선보다 더 빨리 수렴하는가?
RQ4등변 특징 추출기를 사용하는 것과 완전 등변 아키텍처를 사용하는 것이 학습 속도에 미치는 영향은 무엇인가?

주요 결과

MDP 호모모픽 네트워크는 CartPole, 그리드 월드, Pong에서 비구조적 베이스라인보다 더 빨리 수렴한다.
자동화된 방법(symmetrizer)이 제약 조건을 손으로 도출하지 않고 등변 층을 구성한다.
등변 기저 네트워크가 여러 과업에서 수렴 속도 면에서 무작위 또는 널스페이스 기저보다 우수하다.
등변 특징 추출기가 일부 과제에서 전체 등변 네트워크보다 더 빠른 수렴을 보일 수 있다.
Pong에서 데이터 증강은 네트워크 가중치에 대칭을 직접 임베딩하는 것보다 효과가 낮다.
일부 경우의 베이스라인 CNN은 등변 변형에 비해 수렴이 느리게 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.