QUICK REVIEW

[논문 리뷰] Value constrained model-free continuous control

Steven Bohez, Abbas Abdolmaleki|arXiv (Cornell University)|2019. 02. 12.

Reinforcement Learning in Robotics참고 문헌 20인용 수 30

한 줄 요약

이 논문은 연속 제어에서 작업 보상과 보조 비용(예: 제어 노력 또는 에너지 소비)을 자동으로 균형 잡는 데 Lagrangian 보정을 사용하는 제약 기반 강화학습 방법을 제안한다. 정책과 가치 함수와 함께 상태에 따라 변화하는 Lagrangian 승수를 학습함으로써, 제약 조건이 실시간으로 충족됨을 보장하여 수동적인 초모수 조정 없이도 부드럽고 효율적인 정책을 가능하게 한다. 이는 사전 시뮬레이션 및 실제 로봇 작업(예: 4족 보행 및 시야 제약 조건이 있는 실제 로봇 암 도달 작업)에서 성공적으로 검증되었다.

ABSTRACT

The naive application of Reinforcement Learning algorithms to continuous control problems -- such as locomotion and manipulation -- often results in policies which rely on high-amplitude, high-frequency control signals, known colloquially as bang-bang control. Although such solutions may indeed maximize task reward, they can be unsuitable for real world systems. Bang-bang control may lead to increased wear and tear or energy consumption, and tends to excite undesired second-order dynamics. To counteract this issue, multi-objective optimization can be used to simultaneously optimize both the reward and some auxiliary cost that discourages undesired (e.g. high-amplitude) control. In principle, such an approach can yield the sought after, smooth, control policies. It can, however, be hard to find the correct trade-off between cost and return that results in the desired behavior. In this paper we propose a new constraint-based reinforcement learning approach that ensures task success while minimizing one or more auxiliary costs (such as control effort). We employ Lagrangian relaxation to learn both (a) the parameters of a control policy that satisfies the desired constraints and (b) the Lagrangian multipliers for the optimization. Moreover, we demonstrate that we can satisfy constraints either in expectation or in a per-step fashion, and can even learn a single policy that is able to dynamically trade-off between return and cost. We demonstrate the efficacy of our approach using a number of continuous control benchmark tasks, a realistic, energy-optimized quadruped locomotion task, as well as a reaching task on a real robot arm.

연구 동기 및 목표

모델-프리 연속 제어에서 발생하는 번-번 제어 문제를 해결하기 위해, 실세계 시스템에 적합하지 않은 고주파수, 고폭도 동작을 방지한다.
다중목표 강화학습에서 보상 대 비용 비율을 수동으로 조정하는 데 어려움을 해결하기 위해, 일반적으로 광범위한 초모수 검색이 필요로 하는 문제를 해결한다.
제약 기반 최적화를 통해 작업 성능과 보조 비용(예: 에너지, 제어 노력) 간의 자동적이고 적응적인 트레이드오프를 가능하게 한다.
동적이고 상태에 따라 변화하는 비용 트레이드오프 및 다중 작업 설정으로 일반화하여, 한 개의 정책이 다양한 성능-비용 우선순위에 적응할 수 있도록 한다.
복잡한 벤치마크에서 방법을 검증한다. 이는 현실적인 4족 보행 작업과 시야 제약 조건이 있는 실제 로봇 암 도달 작업을 포함한다.

제안 방법

이 방법은 연속 제어를 제약 최적화 문제로 공식화하여, 보조 비용을 최소화하면서 Lagrangian 보정을 통해 최소한의 작업 성공률를 확보한다.
정책과 가치 함수와 함께 끝에서 끝까지 학습되는 상태에 따라 변화하는 Lagrangian 승수를 도입한다. 이는 구조적 크리틱 신경망을 사용하여 실현된다.
크리틱 모델은 각 상태에 대해 수익, 비용 값, 그리고 Lagrangian 승수를 동시에 추정하여, 단계별 제약 조건 이행을 가능하게 한다.
기대 기반 방법과는 대비하여, 기대 기반 및 단일 단계(지점 기반) 제약 조건을 모두 지원하여 순순간 행동에 대한 더 엄격한 제어를 가능하게 한다.
작업 목표에 따라 정책과 승수를 조건화함으로써 다중 작업 설정으로 일반화되며, 다양한 작업과 비용 수준 간의 동적 트레이드오프를 가능하게 한다.
모든 가치 기반 모델-프리 강화학습 알고리즘과 호환되며, 동시에 여러 제약 조건에 적용 가능하다.

실험 결과

연구 질문

RQ1제약 기반 강화학습 접근법이 수동적인 초모수 조정 없이도 보상과 제어 비용을 자동으로 균형 잡을 수 있는가?
RQ2상태에 따라 변화하는 Lagrangian 승수는 기대 기반 방법에 비해 더 엄격하고 단계별로 제약 조건을 이행할 수 있는가?
RQ3이 방법은 다양한 작업 목표 또는 비용 수준에서 성능과 비용 간의 동적 트레이드오프를 수행하는 단일 정책을 학습할 수 있는가?
RQ4이 접근법은 제어 노력 감소 및 실세계 로봇 제어의 강건성 향상에 기여하는가? 예를 들어, 에너지 효율적인 보행 또는 시야 제약 조건이 있는 조작 작업에서의 성능 향상 여부는?
RQ5이 방법은 비틀림 없는 제약 조건이 있는 복잡한 실제 로봇 작업에 성공적으로 적용될 수 있는가? 예를 들어, 도달 작업 중 시야 유지가 요구되는 경우.

주요 결과

이 방법은 연속 제어 작업에서 고주파수, 고폭도 제어 신호(번-번 제어)를 효과적으로 감소시켜 더 매끄럽고 현실적인 정책을 도출하였다.
시뮬레이션된 4족 보행 작업에서, 고정된 페널티 계수를 사용한 베이스라인과 비교해 전기적 전력 소비가 낮고 속도 오버슈트가 감소한 결과를 얻었다.
실제 Sawyer 로봇 암에서, 정책은 도달 작업 전반에 걸쳐 최소 95%의 타겟 태그 시야 확보를 유지하였으며, 제약 조건이 실시간으로 충족됨을 입증하였다.
학습 과정은 초기에 제약 조건 충족에 집중하다가, 제약 조건이 충족된 후에는 도달 보상 최적화에 초점을 이동시켰으며, 효과적인 다중목표 균형을 보였다.
보상 대 비용 가중치 비율은 학습 도중 동적으로 조정되었으며, 제약 조건 충족 이후 정책의 80%는 도달에, 20%는 시야 유지에 집중하였다.
이 방법은 제약 조건의 하한을 다양한 수준으로 일반화하여, 한 개의 정책이 다양한 성능-비용 트레이드오프에 적응할 수 있도록 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.