QUICK REVIEW

[논문 리뷰] Generalized Planning With Deep Reinforcement Learning

Or Rivlin, Tamir Hazan|arXiv (Cornell University)|2020. 05. 05.

AI-based Problem Solving and Planning참고 문헌 29인용 수 24

한 줄 요약

이 논문은 그래프 신경망(GNNs)을 사용한 딥 강화학습 접근법을 제안하여, 훈련 데이터보다 훨씬 큰 규모의 계획 문제를 해결할 수 있는 일반화된 계획 정책을 학습한다. 정책 기반 강화학습 방법을 통해 반응형 정책를 훈련하고 이를 목표 한정 탐색 알고리즘(GBFS-GNN)에 통합함으로써, 상태 공간의 확장이 매우 큰 문제에 대해서도 뛰어난 확장성과 경쟁 가능한 런타임 성능을 달성한다. 이는 최신 고전적 계획기들보다도 훨씬 큰 문제에 대해서도 성능을 뛰어넘는다.

ABSTRACT

A hallmark of intelligence is the ability to deduce general principles from examples, which are correct beyond the range of those observed. Generalized Planning deals with finding such principles for a class of planning problems, so that principles discovered using small instances of a domain can be used to solve much larger instances of the same domain. In this work we study the use of Deep Reinforcement Learning and Graph Neural Networks to learn such generalized policies and demonstrate that they can generalize to instances that are orders of magnitude larger than those they were trained on.

연구 동기 및 목표

훈련 데이터에서 볼 수 없었던 크기의 문제를 풀 수 있는 일반화된 계획 정책을 학습하는 방법을 개발하는 것.
적절한 인덕티브 편향을 가진 그래프 신경망이 고전적 계획 문제의 강화학습에서 효과적인 일반화를 가능하게 하는지 탐색하는 것.
학습된 반응형 정책을 활용하여 최소한의 탐색 노력으로 대규모 계획 문제를 효율적으로 해결할 수 있는 탐색 알고리즘을 설계하는 것.
딥 RL 정책의 일반화 능력을 다양한 계획 도메인에서 평가하고, 특히 고전적 계획기들과의 비교를 통해 성능을 분석하는 것.
특히 로지스틱과 같은 높은 상호의존성 도메인에서 일반화 성능에 영향을 주는 아키텍처적 및 훈련 요소를 규명하는 것.

제안 방법

신경망에 그래프 구조적 인덕티브 편향을 부여한 딥 강화학습을 사용하여, 환경 상호작용을 직접적으로 기반으로 하는 확률적이고 반응형 정책를 학습한다.
계획 문제의 상태를 노드가 객체를 나타내고 간선이 관계를 나타내는 그래프로 인코딩하기 위해 그래프 신경망(GNN)을 사용함으로써, 구조적 일반화를 가능하게 한다.
유한한 시간 간격 동안 누적 보상을 최대화하는 것을 목표로 하여, 목표 상태에의 진전을 장려하는 보상 함수를 사용해 몽테카를로 롤아웃을 통해 정책를 훈련한다.
학습된 정책를 히우리스틱으로 사용하는 GBFS-GNN을 신규 탐색 알고리즘으로 제안하며, 탐색의 탐욕적 롤아웃과 한정된 탐색을 조합하여 큰 상태 공간을 효율적으로 탐색한다.
Pyperplan과 Fast Downward 기반의 후속 상태 생성기와 유효한 동작 필터를 사용하여 정확성과 표준 PDDL 계획 도메인과의 호환성을 확보한다.
최적의 해나 수작업으로 설계된 히우리스틱에 의존하지 않고, 환경 피드백만을 사용하여 처음부터 학습을 수행한다.

실험 결과

연구 질문

RQ1딥 강화학습에 GNN을 적용하여, 훈련 분포보다 수개의 크기 차이가 나는 문제에 대해서도 일반화 가능한 계획 정책를 학습할 수 있는가?
RQ2GNN 아키텍처의 인덕티브 편향이 계획 정책에서 일반화의 발생에 어떤 영향을 미치는가?
RQ3학습된 정책가 일반화에 실패하는 계획 도메인은 어디이며, 이러한 실패에 기여하는 도메인의 구조적 특성은 무엇인가?
RQ4고성능의 반응형 정책를 활용하는 탐색 알고리즘이, 후속 상태 생성 속도가 느리더라도 상태 공간 확장 측면에서 고전적 계획기들을 능가할 수 있는가?
RQ5로지스틱과 같은 높은 상호의존성 도메인에서 일반화 성능을 향상시키기 위해 아키텍처나 훈련 방식에 어떤 수정이 필요할까?

주요 결과

GBFS-GNN은 다섯 도메인 중 네 도메인에서 확장된 상태 수 측면에서 뛰어난 성공률을 기록하여, 효과적인 정책 일반화 덕분에 뛰어난 확장성을 입증했다.
블록월드 및 기타 도메인에서는 정책 자체가 매우 효과적이었기 때문에 탐색이 극히 적었고, 종종 몇 번의 롤아웃만으로도 충분했다. 이는 강력한 일반화 능력을 시사한다.
Fast Downward의 C++ 구현보다 수개의 크기 차이가 나는 후속 상태 생성기조차 사용했음에도 불구하고, GBFS-GNN은 네 도메인에서 런타임 성능이 Fast Downward와 동등하거나 이를 초월했다.
로지스틱 도메인에서는 성능이 크게 떨어졌는데, 이는 객체 간의 강한 결합(예: 공유되는 트럭과 비행기)으로 인해 일반화가 어려워졌기 때문이며, 이는 아키텍처적 한계를 시사한다.
로지스틱에서의 실패는 정책가 목표를 완료할 때까지 한 목표에 집중하지 못했기 때문이며, 이는 목표 지속성(목표 유지)을 보장할 수 있는 아키텍처 수정이 필요함을 시사한다.
결과적으로 적절한 인덕티브 편향을 가진 딥 RL은 최적의 해에 접근할 수 없더라도, 인간이 설계한 전략(예: 모든 블록을 풀어내고 다시 쌓는 것)과 유사한 일반 원칙을 학습할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.