QUICK REVIEW

[논문 리뷰] Interactive Learning from Policy-Dependent Human Feedback

James MacGlashan, Mark K. Ho|arXiv (Cornell University)|2017. 01. 21.

Reinforcement Learning in Robotics참고 문헌 24인용 수 108

한 줄 요약

이 논문은 인간 피드백이 학습자의 현재 정책에 의존한다는 것을 보여주고, 정책 의존적 피드백에서 수렴하는 배우-비평가 기반 알고리즘 COACH를 도입합니다. 시뮬레이션과 TurtleBot 로봇에서의 학습을 통해 시연합니다.

ABSTRACT

This paper investigates the problem of interactively learning behaviors communicated by a human teacher using positive and negative feedback. Much previous work on this problem has made the assumption that people provide feedback for decisions that is dependent on the behavior they are teaching and is independent from the learner's current policy. We present empirical results that show this assumption to be false -- whether human trainers give a positive or negative feedback for a decision is influenced by the learner's current policy. Based on this insight, we introduce {\em Convergent Actor-Critic by Humans} (COACH), an algorithm for learning from policy-dependent feedback that converges to a local optimum. Finally, we demonstrate that COACH can successfully learn multiple behaviors on a physical robot.

연구 동기 및 목표

학습자 현재 정책에 따라 인간이 제공하는 피드백이(policy-dependent feedback) 달라짐을 시연하고, 이것이 단순히 행동 품질에 의해서만 좌우되지 않음을 보인다.
정책 의존적 피드백에서 학습하고 지역 최적점으로 수렴하는 알고리즘(COACH)을 개발하고 형식화한다.
시뮬레이션 도메인과 실제 로봇 실험에서 COACH를 검증하여 다양한 작업에서의 확장성 및 강건성을 보인다.

제안 방법

인간 피드백의 모델로 이점 함수 Aπ(s,a)=Qπ(s,a)−Vπ(s) 를 도입한다.
적절히 Qπ 또는 Aπ에 해당하는 피드백일 때 수렴을 보이는 업데이트 규칙 Δθt∝∇θπ(st,at) ft / π(st,at) 를 도출한다.
가변 피드백 크기, 시간 지연 및 희소 피드백을 다루기 위해 보상 통합 및 자격 추적(eligibility traces)을 갖춘 실시간 COACH를 제시한다.
다른 감쇠율의 여러 자격 추적을 사용하여 과거의 관련 행동에 피드백을 적용한다(트레이스 λ).
제어된 도메인에서 COACH를 Q-learning 및 TAMER와 비교하여 다양한 피드백 전략에 대한 강건성을 평가한다.
다섯 가지 학습 행동을 가진 TurtleBot에서 차등 피드백 및 감소 피드백을 사용하여 실시간 COACH를 시연한다.

실험 결과

연구 질문

RQ1상호작용 학습 설정에서 인간 피드백이 학습자의 현재 정책에 의존하는가(정책 의존적 피드백)?
RQ2정책 의존적 피드백으로 학습될 때 수렴하도록 설계된 배우-비평가 프레임워크(COACH)가 가능한가?
RQ3다양한 피드백 전략하에서 COACH가 기존 HCRL 접근법(예: TAMER) 대비 어떤 성능을 보이는가?
RQ4높은 빈도의 의사결정과 지각 잡음이 있는 실제 로봇 도메인으로 COACH가 확장 가능한가?
RQ5실시간 정책 의존적 피드백을 위한 실용적 고려사항(지연, 희소성, 보상 크기)은 무엇인가?

주요 결과

인간 트레이너는 피드백의 부호와 크기가 학습자의 정책에 의존하며 행동 품질만에 의존하지 않는다.
COACH는 정책 의존적 피드백을 사용할 때 이점 기반 피드백 모델을 활용하여 지역 최적점으로 수렴한다.
시뮬레이션에서 COACH는 개선 기반 피드백에서 대안들보다 우수하고, TAMER는 행동 기반 피드백에서 최상의 성능을 보이며 특정 전략에서 실패할 수 있다.
실시간 COACH는 TurtleBot에서 차등 및 감소 피드백을 사용하여 2분 이내에 다섯 가지 서로 다른 행동을 학습할 수 있게 한다.
TAMER는 일부 구성적 학습 및 유혹 시나리오에서 이전에 학습한 행동을 잊을 수 있는데, 반면 COACH는 정책 의존적 피드백으로 안정적인 학습을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.