QUICK REVIEW

[논문 리뷰] Adversarial Task Transfer from Preference.

Xiaojian Ma, Mingxuan Jing|arXiv (Cornell University)|2018. 05. 12.

Adversarial Robustness in Machine Learning인용 수 1

한 줄 요약

이 논문은 강화학습에서 전문가의 선호도를 이용하여 정확한 전문가 시범이나 명시적인 비용 함수 없이도 소스 작업에서 타겟 작업으로 정책을 전이하는 새로운 작업 전이 프레임워크를 제안한다. 적대적 최대 엔트로피 역강화학습을 통해 반복적으로 타겟 비용 함수와 궤적 분포를 개선함으로써, 최소한의 인간 감독으로도 효과적인 정책 전이를 달성하며, 벤치마크 환경에서의 광범위한 시뮬레이션을 통해 검증되었다.

ABSTRACT

The goal of task transfer in reinforcement learning is migrating the action policy of an agent to the target task from the source task. Given their successes on robotic action planning, current methods mostly rely on two requirements: exactly-relevant expert demonstrations or the explicitly-coded cost function on target task, both of which, however, are inconvenient to obtain in practice. In this paper, we relax these two strong conditions by developing a novel task transfer framework where the expert preference is applied as a guidance. In particular, we alternate the following two steps: Firstly, letting experts apply pre-defined preference rules to select related expert demonstrates for the target task. Secondly, based on the selection result, we learn the target cost function and trajectory distribution simultaneously via enhanced Adversarial MaxEnt IRL and generate more trajectories by the learned target distribution for the next preference selection. The theoretical analysis on the distribution learning and convergence of the proposed algorithm are provided. Extensive simulations on several benchmarks have been conducted for further verifying the effectiveness of the proposed method.

연구 동기 및 목표

타겟 작업에 대해 정확한 전문가 시범이나 명시적인 비용 함수를 확보하는 것이 비현실적임을 해결하기 위해.
정책 전이의 지도 학습 강도를 줄이기 위해 전문가의 선호도만을 지침으로 사용함으로써.
선호도 유도 반복 개선을 통해 타겟 비용 함수와 궤적 분포를 동시에 학습하는 방법을 개발하기 위해.
제안된 알고리즘의 수렴성과 분포 학습 성질을 이론적으로 분석하기 위해.
다양한 벤치마크 환경에서 제안된 프레임워크의 효과성을 경험적으로 검증하기 위해.

제안 방법

전문가가 사전 정의된 선호도 규칙을 적용하여 소스 작업의 관련 있는 전문가 시범을 타겟 작업에 적합한 것으로 선별한다.
선별된 시범을 바탕으로 향상된 적대적 MaxEnt IRL을 통해 타겟 비용 함수와 궤적 분포를 학습한다.
학습된 궤적 분포가 다음 라운드의 선호도 평가를 위한 새로운 궤적을 생성한다.
선호도 기반 시범 선별과 분포 학습을 반복 루프 내에서 번갈아가며 수행한다.
역강화학습과 선호도 모델링을 통합하여 상대적 비교에서 보상 함수를 추론한다.
이론적 분석을 통해 반복 과정 동안 분포 학습의 수렴성과 안정성을 보장한다.

실험 결과

연구 질문

RQ1명시적인 비용 함수나 완벽한 시범 없이 전문가의 선호도만으로도 효과적으로 정책 전이를 이끌 수 있는가?
RQ2선호도 기반 선별을 역강화학습과 어떻게 통합하여 타겟 정책 학습을 향상시킬 수 있는가?
RQ3궤적 분포와 비용 함수의 반복적 개선이 안정적이고 수렴하는 학습을 이끌어내는가?
RQ4샘플 효율성과 벤치마크 작업 성능 측면에서 기존 방법과 비교해 볼 때, 이 방법은 어떠한가?
RQ5다양한 선호도 규칙의 설계가 이전 정책의 품질에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 정확한 전문가 시범이나 수작업으로 작성된 보상 함수 없이도 효과적인 정책 전이를 달성한다.
벤치마크 환경에서의 광범위한 시뮬레이션을 통해 강력한 지도 학습에 의존하는 기준 방법들보다 일관된 성능 향상을 보였다.
반복적 개선 과정은 분포 학습과 비용 함수 추정에서 안정적인 수렴을 이끌어냈다.
다양한 선호도 규칙 설계에 대해 뛰어난 강건성을 보이며, 실제 환경 적용 가능성에 기여했다.
이론적 분석을 통해 가정 조건 하에서 제안된 알고리즘이 수렴함을 확인했다.
프레임워크는 인간의 애너테이션 노력이 크게 줄어든 높은 품질의 정책 전이를 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.