QUICK REVIEW

[논문 리뷰] QMDP-Net: Deep Learning for Planning under Partial Observability

Péter Karkus, David Hsu|arXiv (Cornell University)|2017. 03. 20.

Adversarial Robustness in Machine Learning참고 문헌 28인용 수 27

한 줄 요약

QMDP-Net은 부분 관찰 환경에서의 결정 문제를 위한 엔드 투 엔드 학습을 가능하게 하기 위해 POMDP 모델과 QMDP 계획 알고리즘을 통합한 미분 가능하고 순환 신경망이다. 실험에서 전문가의 시범 데이터로부터 더 효과적인 작업 특화 모델을 학습함으로써 표준 QMDP 알고리즘을 능가하며, 더 강력한 일반화와 더 큰 환경으로의 전이 성능을 보여준다.

ABSTRACT

This paper introduces the QMDP-net, a neural network architecture for planning under partial observability. The QMDP-net combines the strengths of model-free learning and model-based planning. It is a recurrent policy network, but it represents a policy for a parameterized set of tasks by connecting a model with a planning algorithm that solves the model, thus embedding the solution structure of planning in a network learning architecture. The QMDP-net is fully differentiable and allows for end-to-end training. We train a QMDP-net on different tasks so that it can generalize to new ones in the parameterized task set and "transfer" to other similar tasks beyond the set. In preliminary experiments, QMDP-net showed strong performance on several robotic tasks in simulation. Interestingly, while QMDP-net encodes the QMDP algorithm, it sometimes outperforms the QMDP algorithm in the experiments, as a result of end-to-end learning.

연구 동기 및 목표

로봇 및 순차적 결정 문제 과제에서 부분 관찰 하에 계획 수립의 과제를 해결하기 위해.
모델 자유형 딥 러닝과 모델 기반 계획의 장점을 융합하여 정책의 일반화 및 전이 성능 향상시키기 위해.
POMDP의 구조적 인덕티브 바이어스와 QMDP 계획 구조를 직접 아키텍처에 통합한 정책 네트워크의 엔드 투 엔드 훈련을 가능하게 하기 위해.
모의 학습을 통해 '틀리지만 유용한' POMDP 모델을 학습하는 것이 원래 QMDP 알고리즘을 능가할 수 있는지 조사하기 위해.

제안 방법

QMDP-Net은 행동-관측 역사 정보를 통합하기 위해 미분 가능한 베이지안 필터를 사용하여 믿음 상태를 유지하는 순환 정책 네트워크이다.
네트워크는 현재 믿음 상태를 기반으로 행동을 선택하기 위해 QMDP 알고리즘의 미분 가능한 구현을 사용하며, 계획 구조를 아키텍처에 직접 통합한다.
공유된 구조를 가진 임의로 생성된 POMDP 환경에서의 전문가 시범 데이터를 사용하여 엔드 투 엔드로 모델을 훈련시킨다.
네트워크의 믿음 갱신 및 행동 선택 모듈은 모두 미분 가능하여, 필터링 및 계획 구성 요소를 모두 거쳐 역전파가 가능하다.
재학습 없이 순환 계획 모듈을 확장함(예: 순환 레이어 수 증가)하여 더 큰 환경으로의 전이를 달성한다.
아키텍처는 진짜 모델과 다를 수 있지만 성능 향상을 위해 엔드 투 엔드 최적화를 통해 더 작고 작업 특화된 POMDP 모델을 학습할 수 있도록 한다.

실험 결과

연구 질문

RQ1QMDP 계획 알고리즘을 내장한 딥 네트워크가 매개변수화된 작업 세트에서 새로운, 볼 수 없는 POMDP 환경으로 일반화할 수 있는가?
RQ2전문가 데이터가 QMDP에 의해 생성된 경우에도 QMDP-Net의 엔드 투 엔드 훈련이 표준 QMDP 알고리즘보다 성능 향상을 이끌 수 있는가?
RQ3작은 환경에서 학습된 정책이 라이다 지도를 가진 실세계 환경(예: 건물)과 같이 훨씬 더 큰 환경으로 성공적으로 전이될 수 있는가?
RQ4네트워크가 QMDP 근사의 한계를 보완하는 '틀리지만 유용한' POMDP 모델을 어느 정도 학습할 수 있는가?

주요 결과

엔드 투 엔드 학습을 통해 더 효과적인 모델을 학습함으로써 QMDP-Net은 대부분의 테스트 작업에서 표준 QMDP 알고리즘을 능가했다.
특히 도전적인 Hallway2 도메인에서는 동일 조건(K=90)에서 82.1%의 성공률을 기록하여 QMDP의 68.0%를 초월했다.
30×30 격자 세계에서 학습된 정책이 Intel Lab(100×101) 및 Freiburg(139×57)와 같은 큰 실세계 환경으로 성공적으로 전이되었으며, 각각 90.2% 및 88.4%의 성공률을 기록했다.
성공 및 실패한 QMDP 시범 데이터를 모두 사용해 훈련한 경우 QMDP-Net은 QMDP를 능가하지 못했으며, 이는 성능 향상이 고품질 전문가 데이터로부터의 학습에 기인함을 확인했다.
네트워크는 효율적인 계획과 일반화를 가능하게 하는 압축된 추상 상태 표현을 학습했으며, 차원의 극복 문제를 완화하는 데 잠재적일 수 있다.
결과적으로 엔드 투 엔드 훈련이 QMDP의 단기적 계획 수평의 한계를 보완하는 모델을 학습시켜 암묵적인 보상 형상화를 효과적으로 수행할 수 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.