QUICK REVIEW

[논문 리뷰] Deep Active Inference for Autonomous Robot Navigation

Ozan Çatal, Samuel T. Wauthier|arXiv (Cornell University)|2020. 03. 06.

Scientific Computing and Data Management인용 수 3

한 줄 요약

이 논문은 고차원 카메라 데이터로부터 딥 네ural 네트워크를 사용해 엔드 투 엔드로 상태 표현을 학습함으로써 실제 로봇 주행을 위한 딥 액티브 인퍼런스를 제안한다. 이는 물리적 로봇에 딥 액티브 인퍼런스를 적용한 최초의 사례로, 정책 계획을 통해 기대 자유 에너지를 최소화하여 선호 상태로 자율 주행하게 하며, 경로 안정성을 유지하고 외부 교란으로부터 복구하는 데 성공한다.

ABSTRACT

Active inference is a theory that underpins the way biological agent's perceive and act in the real world. At its core, active inference is based on the principle that the brain is an approximate Bayesian inference engine, building an internal generative model to drive agents towards minimal surprise. Although this theory has shown interesting results with grounding in cognitive neuroscience, its application remains limited to simulations with small, predefined sensor and state spaces. In this paper, we leverage recent advances in deep learning to build more complex generative models that can work without a predefined states space. State representations are learned end-to-end from real-world, high-dimensional sensory data such as camera frames. We also show that these generative models can be used to engage in active inference. To the best of our knowledge this is the first application of deep active inference for a real-world robot navigation task.

연구 동기 및 목표

고차원 감각 입력을 가진 실제 로봇 주행에 액티브 인퍼런스를 확장하기 위해.
사전 정의된 상태 및 행동 공간이 필요 없도록 원시 관측치로부터 엔드 투 엔드로 생성 모델을 학습하기 위해.
딥 네럴 네트워크가 물리적 로봇 플랫폼에서 액티브 인퍼런스를 구현할 수 있음을 보여주기 위해.
자유 에너지 최소화를 통해 웨어하우스 통로를 주행하는 실제 이동식 로봇에서 접근법을 검증하기 위해.

제안 방법

재파rameterized 정규 분포를 사용하여 변분 사후 Q(st|st−1, at−1, ot), 가능도 P(ot|st), 및 사전분포 P(st|st−1, at−1)를 딥 네럴 네트워크로 근사한다.
후행 분포와 사전분포 간의 KL 발산과 음의 로그우도를 최소화하는 변분 자유 에너지 목적함수를 사용해 네트워크를 엔드 투 엔드로 훈련한다.
시간적 모델링을 위해 LSTM을 통한 인코더(qφ), 디코더(pξ), 그리고 순환 사전(pθ)을 갖는 VAE 유사 아키텍처를 사용한다.
다양한 정책 하에 상상의 궤적을 생성하고 기대 자유 에너지 G(π)를 최소화하는 행동 시퀀스를 선택함으로써 계획을 수행한다.
정밀도 파rameter γ를 갖는 소프트맥스 정책 선택을 사용하여 기대 자유 에너지 최소화 기반으로 행동을 선택한다.
로봇이 통로 중앙에서 주행할 때 관측된 상태의 분포를 사용해 선호 상태를 정의한다.

실험 결과

연구 질문

RQ1고차원 시각적 관측치를 가진 실제 로봇 주행에 딥 액티브 인퍼런스를 성공적으로 적용할 수 있는가?
RQ2엔드 투 엔드로 학습된 생성 모델이 액티브 인퍼런스에서 수작업으로 설계된 상태 공간을 대체할 수 있는가?
RQ3자유 에너지 최소화와 정책 계획을 통해 로봇이 통로 중앙에서 주행을 얼마나 잘 유지할 수 있는가?
RQ4외부 교란(예: 주행 중 밀리는 것)으로부터 시스템이 복구할 수 있는가?

주요 결과

로봇은 여러 시행에 걸쳐 통로 중앙의 선호 상태로 성공적으로 주행하여 안정적인 경로 추종을 보였다.
로봇이 수동으로 밀리는 상황에서도 시스템이 안정적인 주행을 유지하며 복구 행동을 보였다.
다른 정책(직진, 좌회전, 우회전) 하에서의 상상 궤적은 로봇의 실제 행동을 정확히 예측하여 계획 메커니즘의 타당성을 검증했다.
학습된 생성 모델은 은닉 표현에서 선호 상태를 재구성하여 효과적인 상태 표현 학습을 확인했다.
명시적 보상 설계나 보상 모델링 없이도 시간이 지남에 따라 안정적인 성능을 유지했다.
실시간 감각 입력을 갖는 실제 이동식 로봇 플랫폼에서 성공적으로 작동하여 딥 액티브 인퍼런스의 최초 실세계 구현을 이룩했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.