QUICK REVIEW

[논문 리뷰] Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

Yuke Zhu, Roozbeh Mottaghi|arXiv (Cornell University)|2016. 09. 16.

Reinforcement Learning in Robotics참고 문헌 52인용 수 163

한 줄 요약

이 논문은 대상 지향 심층 강화 학습 모델과 시암 이중(actor-critic) 아키텍처 및 AI2-THOR 시뮬레이션 프레임워크를 제시하여 대상과 장면 간 일반화, 데이터 효율성 향상 및 시뮬레이터에서 실제로의 전이 가능성을 가능하게 한다.

ABSTRACT

Two less addressed issues of deep reinforcement learning are (1) lack of generalization capability to new target goals, and (2) data inefficiency i.e., the model requires several (and often costly) episodes of trial and error to converge, which makes it impractical to be applied to real-world scenarios. In this paper, we address these two issues and apply our model to the task of target-driven visual navigation. To address the first issue, we propose an actor-critic model whose policy is a function of the goal as well as the current state, which allows to better generalize. To address the second issue, we propose AI2-THOR framework, which provides an environment with high-quality 3D scenes and physics engine. Our framework enables agents to take actions and interact with objects. Hence, we can collect a huge number of training samples efficiently. We show that our proposed method (1) converges faster than the state-of-the-art deep reinforcement learning methods, (2) generalizes across targets and across scenes, (3) generalizes to a real robot scenario with a small amount of fine-tuning (although the model is trained in simulation), (4) is end-to-end trainable and does not need feature engineering, feature matching between frames or 3D reconstruction of the environment. The supplementary video can be accessed at the following link: https://youtu.be/SmBxMDiOrvs.

연구 동기 및 목표

대상을 정책 입력에 포함시켜 시각 내비게이션을 위한 심층 강화 학습의 일반화 격차를 해결한다.
확장 가능한 데이터 수집과 현실적인 실내 상호작용을 가능하게 하는 고품질 시뮬레이션 환경(AI2-THOR)을 개발한다.
재학습 없이 대상 간 일반화가 가능한 타깃 지향 정책을 제안한다.
특징 엔지니어링이나 명시적 3D 재구성 없이 엔드투엔드 학습 가능성을 입증한다.
새로운 대상, 새로운 장면, 연속 공간 및 실제 로봇으로의 전이 가능성을 평가한다.

제안 방법

현재 관측과 대상 이미지를 병렬로 가중치 공유하여 처리하는 심층 시암 이중 배우-비평가 네트워크를 제안하고, 정책과 가치 출력을 위한 결합 임베딩을 생성한다.
배치의 레이아웃 특화 내비게이션 신호를 포착하기 위해 장면 특이적 최종 계층을 사용하고, 대상과 장면 전반에 걸쳐 일반 시암 계층은 공유한다.
동적 특성을 모형화하기 위해 전진/후진 및 좌/우 회전으로 행동을 이산화하고 가우시안 노이즈를 적용한다.
ImageNet-사전 학습된 ResNet-50 백본을 특징 추출기로 고정하고, 입력으로 4개의 과거 프레임을 쌓고, 임베딩을 512차원 공간으로 투사한다.
각 스레드가 서로 다른 내비게이션 목표를 타깃으로 하는 A3C와 유사한 비동기 프로토콜로 학습하여, 장면 특이적 및 일반 레이어를 적절히 업데이트한다.
보상 설계는 목표 도달에 대해 희박한 보상(10.0)과 더 짧은 궤적을 유도하는 작은 시간 페널티(-0.01)를 포함한다.

실험 결과

연구 질문

RQ1동일한 장면 내에서 보지 않은 대상에 대해 타깃 지향 정책이 일반화될 수 있는가?
RQ2학습된 표현을 재활용하면서 보지 않은 장면의 대상에 대해 일반화할 수 있는가?
RQ3전통적인 DRL 기반과 비교했을 때 대상 간 정보 공유가 데이터 효율성을 향상시키는가?
RQ4제한된 미세조정으로도 연속 공간과 실제 로봇 시나리오로의 적용이 가능한가?

주요 결과

Type	Method	Avg. Trajectory Length
Heuristic	Random walk	2744.3
Heuristic	Shortest path	17.6
Purpose-built RL	One-step Q	2539.2
Purpose-built RL	A3C (1 thread)	1241.3
Purpose-built RL	A3C (4 threads)	723.5
Target-driven RL	Single branch	581.6
Target-driven RL	Final (ours)	210.7

최종 타깃 지향 모델은 A3C 변형 및 단일 브랜치 대상 모델을 포함한 벤치마크보다 평균 경로 길이가 현저히 짧다(210.7 스텝).
데이터 효율성이 향상되어, 최종 모델이 1억 프레임 학습 후 최첨단 DRL 방법을 능가한다.
공유 시암 계층과 장면 특이적 계층의 도움으로 같은 장면 내의 보지 않은 대상과 보지 않은 장면 전체에서 일반화한다.
t-SNE 시각화는 임베딩 공간이 공간적 배열을 보존함을 시사하여 암묵적 위치추정/매핑을 시사한다.
연속 공간 작업에서 모델은 무작위 행동에 비해 훨씬 적은 스텝으로 문/대상을 도달하지만 더 많은 학습 프레임이 필요하다.
로봇 실험에서 소량의 미세조정을 통해 시뮬레이션-실제 전이가 성공적으로 나타나고, 학습된 일반 계층의 전이가 수렴 속도를 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.