QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning with Graph-based State Representations.

Vikram Waradpande, Daniel Kudenko⋆|arXiv (Cornell University)|2020. 04. 29.

Reinforcement Learning in Robotics참고 문헌 4인용 수 8

한 줄 요약

이 논문은 그래프 기반 상태 표현을 딥 강화 학습에 도입하여 격자 세계 탐색 작업에서 샘플 효율성과 성능을 향상시키는 것을 제안한다. MDP의 기본 그래프 구조에 기반한 노드 표현 학습 방법—특히 무작위 보행 기반 접근 방식—을 활용함으로써 저자들은 이러한 임베딩이 표준 행렬 표현보다 일관되게 뛰어난 성능을 보임을 보여주며, 복잡한 그래프 컨볼루션 네트워크보다 간단한 방법이 종종 슈퍼어리어를 기록함을 확인한다.

ABSTRACT

Deep RL approaches build much of their success on the ability of the deep neural network to generate useful internal representations. Nevertheless, they suffer from a high sample-complexity and starting with a good input representation can have a significant impact on the performance. In this paper, we exploit the fact that the underlying Markov decision process (MDP) represents a graph, which enables us to incorporate the topological information for effective state representation learning. Motivated by the recent success of node representations for several graph analytical tasks we specifically investigate the capability of node representation learning methods to effectively encode the topology of the underlying MDP in Deep RL. To this end we perform a comparative analysis of several models chosen from 4 different classes of representation learning algorithms for policy learning in grid-world navigation tasks, which are representative of a large class of RL problems. We find that all embedding methods outperform the commonly used matrix representation of grid-world environments in all of the studied cases. Moreoever, graph convolution based methods are outperformed by simpler random walk based methods and graph linear autoencoders.

연구 동기 및 목표

그래프 기반 상태 표현이 딥 강화 학습에서 샘플 효율성과 학습 성능을 향상시킬 수 있는지 조사하기.
기본 마르코프 결정 과정(MDP)의 구조에 대해 다양한 노드 표현 학습 방법의 효과성을 평가하기.
격자 세계 탐색 환경에서 그래프 컨볼루션 네트워크, 무작위 보행 방법, 그래프 오토에인코드르를 비교하기.
표준 행렬 표현보다 MDP의 위상적 구조를 통합할 경우 더 나은 정책 학습이 이루어지는지 확인하기.

제안 방법

저자들은 격자 세계 환경을 그래프로 모델링하며, 상태는 노드로, 전이 관계는 간선으로 간주하여 기본 MDP 그래프를 구성한다.
노드 표현 학습 알고리즘 네 가지 유형을 적용한다: 그래프 컨볼루션 네트워크(GCNs), 무작위 보행 기반 방법(예: node2vec), 그래프 오토에인코드르, 선형 오토에인코드르.
이러한 방법을 통해 상태 표현을 학습하고, 이를 딥 Q 네트워크(DQN)의 입력으로 사용하여 정책 학습을 수행한다.
각 표현 방법의 성능을 동일한 학습 조건에서 표준 격자 세계 탐색 작업에서 평가한다.
학습된 임베딩을 표준 원핫 또는 조밀한 행렬 표현 방식과 비교한다.
표준 딥 강화 학습 학습 프rotocol을 사용하여 표현 방법 간 공정한 비교를 확보한다.

실험 결과

연구 질문

RQ1그래프 기반 상태 표현이 딥 강화 학습에서 샘플 효율성과 성능을 향상시킬 수 있는가?
RQ2MDP 위상 구조를 인코딩하기 위해 그래프 컨볼루션 네트워크가 무작위 보행 기반 방법보다 우월한가?
RQ3그래프 오토에인코드르는 격자 세계 탐색 작업에서 다른 표현 학습 방법과 비교해 어떻게 성능을 내는가?
RQ4MDP 그래프의 위상 정보를 사용할 경우 표준 행렬 표현보다 유의미한 성능 향상이 이루어지는가?
RQ5구조화된 환경에서 딥 강화 학습에 가장 강력하고 효과적인 상태 인코딩을 제공하는 표현 학습 방법의 유형은 무엇인가?

주요 결과

모든 그래프 기반 노드 표현 학습 방법이 평가된 모든 격자 세계 탐색 작업에서 표준 행렬 표현을 뛰어넘었다.
무작위 보행 기반 방법, 예를 들어 node2vec는 그래프 컨볼루션 네트워크보다 뛰어난 성능을 기록했다.
선형 그래프 오토에인코드르는 경쟁력 있는 성능를 보였지만 일반적으로 무작위 보행 기반 방법보다 낮은 성능를 보였다.
MDP의 위상적 구조를 활용함으로써 학습 효율성과 최종 정책 성능이 크게 향상되었다.
이 설정에서는 복잡한 그래프 신경망보다 단순한 표현 학습 기법이 더 효과적이었으며, GCN의 우월성에 대한 기존 가정을 도전했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.