[논문 리뷰] The StreetLearn Environment and Dataset
Google Street View 콘텐츠를 활용한 대화형, 1인칭 내비게이션 환경 StreetLearn을 소개하고, 여러 도시 구간에 걸친 courier 내비게이션 태스크에 대한 베이스라인을 제공합니다. 또한 시각 입력을 이용한 엔드투엔드 내비게이션용 코드와 확장 가능한 평가 프레임워크를 공개합니다.
Navigation is a rich and well-grounded problem domain that drives progress in many different areas of research: perception, planning, memory, exploration, and optimisation in particular. Historically these challenges have been separately considered and solutions built that rely on stationary datasets - for example, recorded trajectories through an environment. These datasets cannot be used for decision-making and reinforcement learning, however, and in general the perspective of navigation as an interactive learning task, where the actions and behaviours of a learning agent are learned simultaneously with the perception and planning, is relatively unsupported. Thus, existing navigation benchmarks generally rely on static datasets (Geiger et al., 2013; Kendall et al., 2015) or simulators (Beattie et al., 2016; Shah et al., 2018). To support and validate research in end-to-end navigation, we present StreetLearn: an interactive, first-person, partially-observed visual environment that uses Google Street View for its photographic content and broad coverage, and give performance baselines for a challenging goal-driven navigation task. The environment code, baseline agent code, and the dataset are available at http://streetlearn.cc
연구 동기 및 목표
- 정적 데이터셋을 넘어 현실 세계에 가까운 환경에서 엔드투엔드 시각 내비게이션을 고무한다.
- Google Street View 이미지를 바탕으로 한 대화형의 1인칭 내비게이션 환경으로 StreetLearn을 제시한다.
- 탐색 정책을 검토하기 위해 배송형 courier 태스크와 지시를 따르는 태스크를 정의한다.
- 지역 기반 평가, 커리큘럼, 이전 가능한 에이전트 아키텍처를 포함한 확장 가능한 벤치마크를 제공한다.
제안 방법
- 두 도시(New York City 및 Pittsburgh)의 실제 세계 거리 그래프를 형성하는 Google Street View 파노라마로 StreetLearn을 구성한다.
- 관찰 공간을 84x84 RGB 크롭으로 정의하고 회전, 이동, 확대/축소에 대한 다섯 개의 이산 액션 세트(또는 여섯 개의 이산 액션 세트)로 구성한다.
- Courier 목표 추적 태스크 및 절대 좌표 목표 또는 언어 안내 지시를 포함한 지시 기반 내비게이션을 형식화한다.
- 공유 인코더와 도시 특화 LSTM을 갖는 두 가지 신경망 아키텍처(CityNav 및 MultiCityNav)를 제안하고 확장 가능한 RL을 위한 IMPALA로 학습한다.
- 거리 그래프에서 최단 경로 BFS를 통한 오라클 기준선을 제공하여 성능 한계를 제시한다.
- C++ 엔진, 프로토콜 버퍼, Python gym-like 인터페이스, TensorFlow 에이전트가 포함된 코드베이스를 공개한다.
실험 결과
연구 질문
- RQ1실제 세계에 가까운 Street View 그래프에서 시각 입력만으로 엔드투엔드 내비게이션 정책을 직접 학습할 수 있는가?
- RQ2지역별 및 다도시 아키텍처가 서로 다른 도시 지역 간에 일반화되고 전달될 수 있는 정도는 무엇인가?
- RQ3커리큘럼 학습과 목표 표현이 장거리 내비게이션 성능에 미치는 영향은 무엇인가?
- RQ4모방/실제 지도(오라클) 지도가 학습된 정책의 성능을 어떻게 한정하는가?
- RQ5목표 지정 방식(절대 위도/경도 vs. 랜드마크)이 내비게이션 효율성에 영향을 미치는가?
주요 결과
| 도시 | 오라클 | Single | Joint | Transfer |
|---|---|---|---|---|
| Wall Street | 809 | 782 | 745 | 541 |
| Union Square | 750 | 721 | 681 | 667 |
| Hudson River | 721 | 615 | 621 | 601 |
| CMU | 755 | 473 | 313 | 355 |
| Allegheny | 760 | 669 | 571 | 562 |
| South Shore | 737 | 1 | - | - |
- 에이전트는 지역별로 학습될 때 New York 구역에서 오라클 반환의 85%-97%를 달성한다.
- 고도 및 도로 토폴로지로 인해 커리큘럼 설계에 영향이 있어 Pittsburgh 구역(특히 South Shore)에서 성능이 떨어진다.
- 여러 지역과 도시에서의 공동 학습은 지역별 학습에 비해 성능 저하가 미미하게 나타난다.
- 전이 실험은 인코더/정책 구성요소를 고정하고 목표 LSTM만 업데이트하면 새로운 지역으로의 전이가 중간 수준의 손실로 가능함을 보여준다.
- 오라클(최단 경로)은 각 지역에서 달성 가능한 성능의 상한을 제공한다.
- 해당 지역에서 위도/경도 타깃 표현이 랜드마크 기반 타깃보다 더 높은 성능을 낸다(적어도 하나의 지역, Union Square).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.