QUICK REVIEW

[논문 리뷰] HRL4IN: Hierarchical Reinforcement Learning for Interactive Navigation with Mobile Manipulators

Chengshu Li, Fei Xia|arXiv (Cornell University)|2019. 10. 24.

Reinforcement Learning in Robotics인용 수 26

한 줄 요약

HRL4IN은 이동형 매니퓰레이터를 위한 새로운 계층적 강화학습 프레임워크를 제안하여, 주행 및 조작이 필요한 장기 시간 간격의 상호작용 주행 과제를 해결한다. 이는 높은 수준의 정책이 이질적인 공간(예: 기준 위치 또는 종단기구 자세)에서 부분 목표를 설정하고 각 단계에 맞는 최적의 신체 부분(기준, 팔, 또는 둘 다)을 선택함으로써, 2D 격자 세계와 3D 물리 환경 모두에서 평탄한 PPO 및 HAC 기준보다 과제 성공률과 에너지 효율성을 크게 향상시킨다.

ABSTRACT

Most common navigation tasks in human environments require auxiliary arm interactions, e.g. opening doors, pressing buttons and pushing obstacles away. This type of navigation tasks, which we call Interactive Navigation, requires the use of mobile manipulators: mobile bases with manipulation capabilities. Interactive Navigation tasks are usually long-horizon and composed of heterogeneous phases of pure navigation, pure manipulation, and their combination. Using the wrong part of the embodiment is inefficient and hinders progress. We propose HRL4IN, a novel Hierarchical RL architecture for Interactive Navigation tasks. HRL4IN exploits the exploration benefits of HRL over flat RL for long-horizon tasks thanks to temporally extended commitments towards subgoals. Different from other HRL solutions, HRL4IN handles the heterogeneous nature of the Interactive Navigation task by creating subgoals in different spaces in different phases of the task. Moreover, HRL4IN selects different parts of the embodiment to use for each phase, improving energy efficiency. We evaluate HRL4IN against flat PPO and HAC, a state-of-the-art HRL algorithm, on Interactive Navigation in two environments - a 2D grid-world environment and a 3D environment with physics simulation. We show that HRL4IN significantly outperforms its baselines in terms of task performance and energy efficiency. More information is available at https://sites.google.com/view/hrl4in.

연구 동기 및 목표

인간 환경에서 기준과 팔의 동기화된 동작이 필요한 장기 시간 간격의 상호작용 주행 과제를 해결하기 위해.
다양한 상태 공간에서 시간적으로 연장된 부분 목표를 통해 계층적 탐색을 가능하게 하여 샘플 효율성과 과제 성공률을 향상시키기 위해.
과제의 각 단계에서 로봇의 신체 부분(기준, 팔, 또는 둘 다)을 동적으로 선택하여 에너지 효율성을 최적화하기 위해.
수동적인 부분 목표 설계 없이, 끝에서 끝까지 뉴럴 강화학습을 통해 부분 목표와 신체 선택 전략을 학습하는 방법을 개발하기 위해.
모의 2D 및 3D 환경에서 평탄한 PPO 및 최첨단 HAC 대비 뛰어난 성능과 에너지 절감 효과를 입증하기 위해.

제안 방법

높은 수준의 정책은 현재 과제 단계에 따라 이질적인 공간(예: 기준 위치 또는 종단기구 자세)에서 부분 목표를 선택한다.
높은 수준의 정책은 각 부분 목표를 달성하기 위해 사용할 신체 부분(기준 전용, 팔 전용, 또는 기준과 팔 모두)을 선택한다.
낮은 수준의 정책은 선택된 신체를 사용하여 지정된 부분 목표에 도달하기 위해 동작을 실행하며, 연속 제어 설정에서 PPO를 통해 훈련된 정책을 사용한다.
학습을 이끄는 데 사용되는 다중 구성 요소 보상 함수는 진전, 성공, 충돌 회피, 에너지 효율성 항목을 포함한다.
부분 목표는 사전 정의되지 않으며, 높은 수준의 정책이 종합적으로 학습함으로써 적응적이고 효율적인 탐색을 가능하게 한다.
옵션을 통한 시간 추상화를 지원하여 에이전트가 장기간에 걸쳐 부분 목표에 대한 약속을 이행할 수 있다.

실험 결과

연구 질문

RQ1계층적 강화학습 프레임워크는 주행 및 조작이 포함된 이질적 상태 공간에서의 다양한 부분 과제로 상호작용 주행 과제를 효과적으로 분해할 수 있는가?
RQ2과제의 각 단계에서 기준, 팔, 또는 둘 다를 동적으로 선택함으로써 과제 성능과 에너지 효율성이 향상되는가?
RQ3장기 시간 간격의 상호작용 주행 과제에서 HRL4IN은 평탄한 PPO 및 HAC 대비 성공률, 최종 보상, 에너지 절감 측면에서 어떻게 비교되는가?
RQ4보상 함수의 각 구성 요소(진전, 충돌, 성공, 에너지)가 정책 학습 및 성능에 기여하는 정도는 어떠한가?
RQ5수동적인 부분 목표 사양 없이도 높은 수준의 정책이 의미 있는 부분 목표와 신체 선택 전략을 학습할 수 있는가?

주요 결과

HRL4IN은 인터랙티브 가이브슨 환경에서 성공률 0.963과 평균 최종 보상 64.3을 달성하여, 평탄한 PPO 및 HAC를 크게 능가했다.
절단 실험 결과, 에너지 보상 항목을 제거하면 에이전트가 의미 있는 신체 선택 전략을 학습하지 못해 에너지 절감률이 0.453에서 0.235로 감소했다.
충돌 회피 보상 항목이 없을 경우 성공률이 0.0으로 떨어져 충돌 방지 보상이 안전한 주행을 위해 필수적임을 확인했다.
진전 보상 항목이 없을 경우도 성공률이 0이 되어 장기 시간 간격 탐색에서 진전 형상화가 핵심임을 입증했다.
신체 선택기의 기능은 에너지 효율성 향상에 결정적이었으며, 비활성화 시 에너지 절감률은 0.0으로 떨어졌지만 성공률와 보상은 유사하게 유지되었다.
시각화 결과, 높은 수준의 정책이 대부분 영역에서는 기준 전용으로 사용하고, 문 근처에서는 기준+팔로 전환하여 집기 작업을 수행하며, 문을 여는 후 다시 기준 전용으로 복귀하는 등 효과적인 신체 인식 기반 계획을 학습한 것으로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.