QUICK REVIEW

[논문 리뷰] Learning to Understand Goal Specifications by Modelling Reward

Dzmitry Bahdanau, Felix Hill|arXiv (Cornell University)|2018. 06. 05.

Reinforcement Learning in Robotics인용 수 69

한 줄 요약

AGILE은 전문가의 목표 상태와 에이전트의 경험으로 함께 학습된 보상 모델의 보상을 사용해 지시 조건부 RL 에이전트를 학습시키며, 하드코딩된 환경 보상 없이 지시를 이해하고 새로운 환경으로 일반화할 수 있도록 한다.

ABSTRACT

Recent work has shown that deep reinforcement-learning agents can learn to follow language-like instructions from infrequent environment rewards. However, this places on environment designers the onus of designing language-conditional reward functions which may not be easily or tractably implemented as the complexity of the environment and the language scales. To overcome this limitation, we present a framework within which instruction-conditional RL agents are trained using rewards obtained not from the environment, but from reward models which are jointly trained from expert examples. As reward models improve, they learn to accurately reward agents for completing tasks for environment configurations---and for instructions---not present amongst the expert data. This framework effectively separates the representation of what instructions require from how they can be executed. In a simple grid world, it enables an agent to learn a range of commands requiring interaction with blocks and understanding of spatial relations and underspecified abstract arrangements. We further show the method allows our agent to adapt to changes in the environment without requiring new expert examples.

연구 동기 및 목표

목표 상태의 예시로부터 보상을 학습함으로써 엔지니어링된 언어-조건 보상에 대한 의존도를 줄이는 것을 동기를 부여한다.
지시-조건 보상 모델과 정책을 함께 학습하는 프레임워크를 제안한다.
새로운 전문가 시연 없이도 새로운 환경에 적응할 수 있게 한다.
간단한 그리드 월드 태스크에서 학습된 보상이 실제 환경 보상만큼 에이전트를 안내할 수 있음을 입증한다.

제안 방법

지시 c에 대한 목표 상태인지를 예측하도록 D_phi 구분기가 학습하는 Adversarial Goal-Induced Learning from Examples (AGILE)을 도입한다.
모형화된 보상 hat{r}_t = [D_phi(c, s_t) > 0.5]를 사용하여 기대 할인 보상을 최대화하도록 정책 pi_theta를 훈련시킨다.
Dataset D의 전문가 (c, s) 목표-상태 예와 재생 버퍼 B에서 에이전트 기원 (c, s) 쌍을 구분하여 교차 엔트로피 목적 L_D(phi)로 보상 모델을 업데이트한다.
업데이트 시 D_phi를 업데이트할 때 B에서 보상이 낮은 상태의 상위 1-ρ 퍼센트를 버리는 샘플링 휴리스스로 위음성(false negatives)을 다룬다. 여기서 ρ는 예상 음수율이다.
AGILE-학습 정책(AGILE-A3C)을 실제 환경 보상으로 학습된 정책 및 보조 보상 예측 기초(RP)와 비교한다.
지시를 인코딩하고 이를 시각적 상태 표현에 접지하는 두 가지 모델 아키텍처(FiLM-NMN와 FiLM-LSTM)를 탐구한다.

실험 결과

연구 질문

RQ1지시로 조건화된 학습된 보상 모델이 환경 기반 보상 없이도 RL 정책을 효과적으로 감독할 수 있는가?
RQ2AGILE가 지시 유형에 걸쳐 환경 보상 기준선에 비해 더 빠른 학습과 비슷한 성능을 가능하게 하는가?
RQ3보상 모델이 보지 못한 지시와 환경 변화에 얼마나 잘 일반화되는가?
RQ4새로운 구성에서 정책 학습이나 미세 조정을 위해 보상 모델을 재사용할 수 있는가?

주요 결과

AGILE-A3C는 환경 보상을 가진 표준 A3C보다 GridLU-Relations 태스크를 더 쉽게 학습한다.
보조 보상 예측 목적을 사용하면 A3C 성능이 더욱 향상되어 AGILE 성능에 근접한다.
보상 모델은 높은 정확도(약 99% 이상)를 달성할 수 있으며 초기 오탐을 통한 유용한 커리큘럼을 제공한다.
구조 비특정 FiLM-LSTM을 사용한 AGILE은 높은 성공률을 달성하여 언어 그 grounding이 NMN 구조를 엄격히 요구하지 않음을 시사한다.
환경 역학이 바뀔 때 정책 성능을 적응시켜 일반화를 보이며, 미세 조정이 회복에 도움이 된다.
GridLU-Arrangements는 더 큰 목표 상태 공간으로 확장될 수 있음을 보여주며, 제한된 전문가-목표 데이터(100,000 예제)와 인간 평가 최종 상태로 의미 있는 성공을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.