QUICK REVIEW

[논문 리뷰] The EMPATHIC Framework for Task Learning from Implicit Human Feedback

Yuchen Cui, Qiping Zhang|arXiv (Cornell University)|2020. 09. 28.

Social Robot Interaction and HRI인용 수 1

한 줄 요약

이 논문은 명시적 인간 지시가 필요 없이 얼굴 반응과 같은 암묵적 인간 피드백에서 작업 정책을 학습하는 두 단계 프레임워크인 EMPATHIC을 제안한다. 얼굴 표정을 보상 및 이점과 같은 작업 통계로 매핑하는 딥 네ural 네트워크를 훈련시켜 실시간 정책 개선과 새로운 조작 작업으로의 제로샷 전이를 가능하게 하며, 자연스럽고 간섭이 적은 인간 반응으로부터 효과적인 학습을 보여준다.

ABSTRACT

Reactions such as gestures, facial expressions, and vocalizations are an abundant, naturally occurring channel of information that humans provide during interactions. A robot or other agent could leverage an understanding of such implicit human feedback to improve its task performance at no cost to the human. This approach contrasts with common agent teaching methods based on demonstrations, critiques, or other guidance that need to be attentively and intentionally provided. In this paper, we first define the general problem of learning from implicit human feedback and then propose to address this problem through a novel data-driven framework, EMPATHIC. This two-stage method consists of (1) mapping implicit human feedback to relevant task statistics such as reward, optimality, and advantage; and (2) using such a mapping to learn a task. We instantiate the first stage and three second-stage evaluations of the learned mapping. To do so, we collect a dataset of human facial reactions while participants observe an agent execute a sub-optimal policy for a prescribed training task. We train a deep neural network on this data and demonstrate its ability to (1) infer relative reward ranking of events in the training task from prerecorded human facial reactions; (2) improve the policy of an agent in the training task using live human facial reactions; and (3) transfer to a novel domain in which it evaluates robot manipulation trajectories.

연구 동기 및 목표

작업 수행 중 얼굴 표정, 제스처, 음성과 같은 암묵적 인간 피드백을 통해 에이전트가 학습할 수 있도록 하는 데 도전한다.
시연나 평가와 같은 의도적인 지시 신호가 필요 없도록 인간의 인지적 부담을 줄인다.
보상, 최적성, 이점과 같은 작업 관련 통계로 자연스러운 인간 반응을 매핑하는 데이터 기반 프레임워크를 개발한다.
실시간 정책 학습에서 살아있는 얼굴 피드백을 사용하고, 새로운 조작 작업으로의 제로샷 전이를 평가한다.
암묵적 피드백이 명시적 인간 레이블 없이도 에이전트 성능 향상에 신뢰성 있게 활용될 수 있음을 입증한다.

제안 방법

학습 작업에서 부분적으로 최적화되지 않은 정책을 실행하는 에이전트를 관찰할 때 참가자의 얼굴 반응 데이터셋을 수집한다.
얼굴 반응 시퀀스를 상대적 보상 순위, 최적성, 이점과 같은 작업 통계로 매핑하는 딥 네럴 네트워크를 훈련한다.
학습된 매핑을 두 단계 프레임워크에 적용: 첫째, 얼굴 피드백에서 작업 통계를 추론하고, 둘째, 추론된 통계를 사용해 에이전트 정책을 개선한다.
실행 중에 살아있는 얼굴 피드백을 사용해 에이전트 정책을 업데이트함으로써 프레임워크를 실시간으로 적용한다.
로봇 조작과 같은 새로운 도메인으로의 전이를 위해, 얼굴 반응에서 유추된 보상 기반으로 궤도 순위를 매길 수 있는 능력을 평가함으로써 학습된 매핑을 전이한다.
보상 순위 및 작업 통계의 회귀를 최적화한 손실 함수를 사용해, 얼굴 피드백 데이터셋에 대해 지도 학습을 수행해 매핑 네트워크를 훈련한다.

실험 결과

연구 질문

RQ1얼굴 표정과 같은 암묵적 인간 피드백이 보상 및 이점과 같은 작업 관련 통계로 신뢰성 있게 매핑될 수 있는가?
RQ2얼굴 피드백에서 유도된 매핑이 작업 수행 중 실시간으로 에이전트 정책을 향상시킬 수 있는가?
RQ3학습된 매핑이 로봇 조작과 같은 새로운, 알려지지 않은 작업 도메인으로 일반화될 수 있는가?
RQ4얼굴 피드백에서 추론된 보상 순위가 실제 작업 성능과 얼마나 높은 상관관계를 가지는가?
RQ5암묵적 피드백만으로도 명시적 시연나 평가 없이 효과적인 정책 학습을 지원할 수 있는가?

주요 결과

딥 네럴 네트워크는 사전 기록된 얼굴 반응에서 높은 정확도로 작업 이벤트의 상대적 보상 순위를 성공적으로 추론했다.
EMPATHIC 프레임워크는 살아있는 인간 얼굴 피드백을 사용해 실시간 정책 개선을 가능하게 하여 기준 정책 대비 측정 가능한 성능 향상을 이뤘다.
프레임워크는 새로운 로봇 조작 작업으로의 제로샷 전이를 성공적으로 보여주었으며, 얼굴 피드백을 기반으로 궤도의 질에 따라 순위를 매겼다.
얼굴 표정에서 작업 통계로의 매핑은 다양한 작업 간에 일반화되었으며, 학습된 표현의 강건성과 전이 가능성에 대한 증거를 제공했다.
피드백이 희소하고 명시적이지 않더라도 모델이 정책 학습에서 상당한 성능 향상을 달성했으며, 이는 암묵적 피드백이 인간-로봇 상호작용에서의 효과적인 대안이 될 잠재력을 보여준다.
결과적으로 암묵적 피드백이 상호작용 학습 시나리오에서 명시적 지시 신호의 실질적이고 효과적인 대체 수 Mittel이 될 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.