QUICK REVIEW

[논문 리뷰] Composable Planning with Attributes

Amy Zhang, Adam Lerer|arXiv (Cornell University)|2018. 03. 01.

Reinforcement Learning in Robotics참고 문헌 38인용 수 26

한 줄 요약

이 논문은 사용자 정의 속성(attribute)을 사용하여 환경 상태를 표현하고, 이전에 학습된 정책들을 조합하여 복잡한 작업에 대해 zero-shot 일반화를 가능하게 하는 구성 가능한 계획 프레임워크를 제안한다. 이는 속성 집합 간 전이를 학습하는 정책을 훈련하고, Dijkstra의 알고리즘을 통해 전이 그래프를 사용한 경로 탐색을 수행함으로써 3D 블록 쌓기, 격자형 환경, 스타크래프트에서 성공을 달성한다. 추론 과정에서 작업별 강화학습을 수행하지 않는다.

ABSTRACT

The tasks that an agent will need to solve often are not known during training. However, if the agent knows which properties of the environment are important then, after learning how its actions affect those properties, it may be able to use this knowledge to solve complex tasks without training specifically for them. Towards this end, we consider a setup in which an environment is augmented with a set of user defined attributes that parameterize the features of interest. We propose a method that learns a policy for transitioning between "nearby" sets of attributes, and maintains a graph of possible transitions. Given a task at test time that can be expressed in terms of a target set of attributes, and a current state, our model infers the attributes of the current state and searches over paths through attribute space to get a high level plan, and then uses its low level policy to execute the plan. We show in 3D block stacking, grid-world games, and StarCraft that our model is able to generalize to longer, more complex tasks at test time by composing simpler learned policies.

연구 동기 및 목표

작업별 강화학습 없이도 새로운 복잡한 작업에 일반화할 수 있도록 에이전트를 가능하게 하기.
기존에 학습된 단순 정책들을 조합하여 새로운 작업을 위한 고수준 계획을 수립하는 방법을 개발하기.
작업에 관련된 환경적 성질을 반영하는 의미 있는 상태 추상화로 수동으로 정의된 속성을 사용하기.
환경 보상 없이도 속성 상태 간 전이 확률을 학습하여 계획을 수행할 수 있는 모델을 훈련하기.
학습 후 테스트 시점에 학습된 전이 그래프와 저수준 정책을 사용하여 속성 공간에서의 계획을 수행하기.

제안 방법

모델은 레이블이 부여된 (상태, 속성) 쌍으로 훈련된 신경망을 사용하여 상태에서 속성을 탐지한다.
탐색 정책이 경험을 수집하여 속성 집합 간의 초기 전이 수 그래프를 구축한다.
희소 보상(목표 속성 집합에 도달했을 경우 1, 그 외 0)을 사용하여 강화학습을 통해 저수준 목표 조건 정책을 훈련한다.
성공 전이 수를 시도 수로 나눈 비율인 전이 표 $ c_{/pi} $ 를 유지하여 속성 집합 간 성공 확률을 표현한다.
테스트 시점에 Dijkstra의 알고리즘이 $ -\log c_{\\/pi} $ 를 간선 가중치로 사용하여 속성 공간에서 누적 성공 확률이 가장 높은 경로를 찾는다.
에이전트는 계산된 경로의 각 단계에서 저수준 정책을 순차적으로 적용하여 계획을 실행하며, 속성 상태가 이격될 경우 재계획을 수행한다.

실험 결과

연구 질문

RQ1에이전트가 이전에 학습된 단순 정책들을 조합하여 장기적이고 복잡한 작업에 일반화할 수 있는가?
RQ2사용자 정의 속성이 조합 계획을 위한 의미 있는 상태 추상화로 기능할 수 있는 정도는 어느 정도인가?
RQ3희소 보상이 존재하고 작업별 훈련이 없는 환경에서 속성 기반 계획은 얼마나 잘 일반화되는가?
RQ4환경 보상 없이도 모델 기반 계획 접근이 새로운 작업에서 높은 성공률을 달성할 수 있는가?
RQ5복잡한 액션 계층을 가진 실제 환경인 스타크래프트와 같은 환경에 이 방법은 어떻게 스케일링되는가?

주요 결과

에이전트는 훈련 중에 학습된 단일 액션 정책들을 조합하여 3D 블록 쌓기 작업에서 다단계 작업에 성공적으로 일반화한다.
2D 격자형 환경에서, 이 방법은 훈련 중에 본 것보다 더 긴 작업에서 높은 성공률을 달성하여 조합 일반화 능력을 입증한다.
이 방법은 스타크래프트 유닛 건설 작업으로까지 일반화되어 추가 훈련 없이도 복잡하고 장기적인 작업을 해결한다.
학습된 전이 확률을 기반으로 한 그래프 기반 계획 메커니즘은 환경 동역학이 복잡할 경우에도 견고한 경로 탐색을 가능하게 한다.
특히 장기간의 액션 시퀀스가 필요한 작업에서 표준 강화학습 기반 모델보다 더 뛰어난 성능을 보이며 zero-shot 일반화를 달성한다.
속성 탐지기와 정책 네트워크는 상태를 추상적 표현으로 매핑하고 고수준 목표에 기반한 액션을 수행하는 데 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.