QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning from Policy-Dependent Human Feedback

Dilip Arumugam, Jun Ki Lee|arXiv (Cornell University)|2019. 02. 12.

Reinforcement Learning in Robotics참고 문헌 30인용 수 31

한 줄 요약

이 논문은 고차원 환경인 마인크래프트와 같은 환경에서 정책에 따라 달라지는 인간 피드백으로부터 복잡한 행동을 학습할 수 있도록 하는 딥 강화학습 알고리즘인 Deep COACH를 제안한다. 오토에인코더, 수정된 리PLAY 버퍼, 엔트로피 정규화를 통해 COACH 프레임워크를 확장함으로써 샘플 효율적인 학습을 달성하였으며, 100개 미만의 인간 피드백 신호로 15분 이내에 작업을 성공적으로 완수하였다.

ABSTRACT

To widen their accessibility and increase their utility, intelligent agents must be able to learn complex behaviors as specified by (non-expert) human users. Moreover, they will need to learn these behaviors within a reasonable amount of time while efficiently leveraging the sparse feedback a human trainer is capable of providing. Recent work has shown that human feedback can be characterized as a critique of an agent's current behavior rather than as an alternative reward signal to be maximized, culminating in the COnvergent Actor-Critic by Humans (COACH) algorithm for making direct policy updates based on human feedback. Our work builds on COACH, moving to a setting where the agent's policy is represented by a deep neural network. We employ a series of modifications on top of the original COACH algorithm that are critical for successfully learning behaviors from high-dimensional observations, while also satisfying the constraint of obtaining reduced sample complexity. We demonstrate the effectiveness of our Deep COACH algorithm in the rich 3D world of Minecraft with an agent that learns to complete tasks by mapping from raw pixels to actions using only real-time human feedback in 10-15 minutes of interaction.

연구 동기 및 목표

3D 환경의 원시 픽셀 입력과 같은 고차원 관측 공간에서 인간 피드백을 통한 딥 강화학습을 가능하게 하기 위해.
비선형 함수 근사가 필요한 복잡한 도메인으로 인간이 참여하는 강화학습을 확장할 때 샘플 효율성 문제를 해결하기 위해.
인간 피드백의 희박성과 정책에 따라 달라지는 성격에도 불구하고 낮은 샘플 복잡도를 유지하면서 안정적인 학습을 보장하기 위해.
실제로 몰입감 있는 환경인 마인크래프트와 같은 환경에서 인간 피드백을 통한 실시간 학습이 가능하며 보상 형상화 없이도 성능을 입증하기 위해.
기존의 접근 방식인 Deep TAMER와 원래의 COACH와의 비교를 통해 피드백 효율성과 행동 수렴 성능을 평가하기 위해.

제안 방법

고차원 원시 픽셀 관측값을 낮은 차원의 잠재 표현으로 압축하기 위해 오토에인코더를 도입하여 COACH 알고리즘을 딥 신경망 정책에 적응시킴.
최근 상호작용 경험을 우선순위로 배정하고 분포 이탈을 줄임으로써 샘플 효율성을 향상시키기 위해 리PLAY 메모리 버퍼를 수정함.
정책 네트워크에 고엔트로피 정규화를 적용하여 탐색을 장려하고 비최적 행동으로의 조기 수렴을 방지함.
인간을 액터-크리틱 프레임워크 내의 크리틱으로 간주하여 인간 피드백을 이점 함수의 편향 없는 추정치로 사용함.
인간 피드백 신호에 기반해 정책을 업데이트하는 손실 함수를 사용하여 스토하스틱 경사 하강법으로 정책을 종합적으로 학습함.
인간 트레이너가 실시간으로 정책에 따라 달라지는 피드백을 제공하는 피드백 메커니즘을 구현함—에이전트가 향상됨에 따라 피드백 빈도가 감소함으로써 수익 감소 현상을 반영함.

실험 결과

연구 질문

RQ1고차원 관측 공간에서 딥 신경망 정책에 대해 COACH 알고리즘을 샘플 효율성을 유지하면서 성공적으로 확장할 수 있는가?
RQ2오토에인코더와 수정된 리PLAY 버퍼의 통합이 딥 HRL에서 학습 안정성과 수렴 속도에 어떤 영향을 미치는가?
RQ3행동 향상에 따라 감소하는 정책에 따라 달라지는 인간 피드백—기존의 보상 형상화와 비교해 더 효율적인 학습을 이끌 수 있는가?
RQ4피드백 효율성, 행동 규칙성, 치명적 잊음에 대한 저항성 측면에서 Deep COACH는 Deep TAMER와 어떻게 비교되는가?
RQ5복잡한 3D 환경에서 원하는 행동으로 수렴하기 위해 인간 피드백을 얼마나 줄일 수 있는가?

주요 결과

Deep COACH는 실시간 인간 상호작용 10~15분 내에 마인크래프트 환경에서 작업을 성공적으로 완수하였으며, 피드백 신호 수가 100개 미만이었다.
에이전트의 행동이 향상됨에 따라 인간 피드백 빈도가 감소함으로써 피드백의 정책에 따라 달라지는 성격이 확인되었으며, 알고리즘이 인간 피드백 패턴과 잘 일치함을 검증함.
Perimeter-Patrol Task에서 Deep COACH 에이전트는 진동적이고 규칙적인 순찰 행동을 보였으며, 이는 순환 운동을 효과적으로 학습했다는 것을 의미함—반면 Deep TAMER에서는 비정상적이거나 정지-시작 패턴을 보였음.
Deep COACH는 치명적 잊음으로 인한 일시적 실패에도 불구하고 몇 번의 업데이트 내에 스스로 복구함. 반면 Deep TAMER는 종종 복구 불가능한 잊음 현상을 경험함.
학습 종료 시 피드백 빈도가 거의 0에 수렴함으로써, 에이전트가 인간 트레이너의 기대를 충족하는 정책으로 수렴했음을 시사함.
복잡한 3D 작업에서 샘플 효율성과 행동 품질 측면에서 원래의 COACH(선형 함수 근사에 국한됨)와 Deep TAMER를 모두 능가하는 성능을 보였음.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.