QUICK REVIEW

[논문 리뷰] Goal-Driven Dynamics Learning via Bayesian Optimization

Somil Bansal, Roberto Calandra|arXiv (Cornell University)|2017. 03. 27.

Gaussian Processes and Bayesian Inference참고 문헌 20인용 수 33

한 줄 요약

이 논문은 실물 로봇 시스템에서 제어 성능을 최대화하기 위해 국소적으로 선형 동역학 모델을 반복적으로 개선하는 베이지안 최적화 기반의 액티브 러닝 프레임워크인 aDOBO를 제안한다. 폐쇄형 루프 성능 피드백에 기반해 모델 파라미터를 직접 최적화함으로써, aDOBO는 큼직한 45회의 반복 후에 전체 비선형 동역학 모델에서 유도된 노멀 컨트롤러보다 12% 높은 제어 성능을 달성한다.

ABSTRACT

Real-world robots are becoming increasingly complex and commonly act in poorly understood environments where it is extremely challenging to model or learn their true dynamics. Therefore, it might be desirable to take a task-specific approach, wherein the focus is on explicitly learning the dynamics model which achieves the best control performance for the task at hand, rather than learning the true dynamics. In this work, we use Bayesian optimization in an active learning framework where a locally linear dynamics model is learned with the intent of maximizing the control performance, and used in conjunction with optimal control schemes to efficiently design a controller for a given task. This model is updated directly based on the performance observed in experiments on the physical system in an iterative manner until a desired performance is achieved. We demonstrate the efficacy of the proposed approach through simulations and real experiments on a quadrotor testbed.

연구 동기 및 목표

정확한 동역학 모델을 확보하거나 유도하는 것이 어려운 복잡한 로봇 시스템을 제어하는 데 도전하는 것.
전 세계적으로 가장 정확한 모델을 찾는 대신, 특정 작업에 맞게 최적화된 동역학 모델을 학습하여 제어 성능을 향상시키는 것.
최소한의 물리적 실험 수를 통해 데이터 효율적인 학습을 가능하게 하는 것.
기존의 시스템 식별 및 컨트롤러 튜닝 방식의 한계를 극복하여, 모델링 정확도 부족이나 실제 환경 피드백의 부재로 인한 실패를 방지하는 것.
예측 오차 최소화에 의존하는 대신, 실제 시스템 피드백을 사용해 제어 성능을 직접 최적화하는 동역학 모델을 개발하는 것.

제안 방법

프레임워크는 과거 성능 관측치를 바탕으로, 물리적 시스템에서 테스트할 다음 동역학 모델 파라미터 조합을 선택하기 위해 베이지안 최적화(BO)를 사용한다.
국소적으로 선형 동역학 모델은 낮은 차원의 벡터 θ로 매개변수화되며, 속도 성분(v_x, v_y)의 미지 동역학은 롤 및 피치 각도와 추력에 대한 선형 함수로 모델링된다.
각 실험 후, 현재 동역학 모델과 작업 특화 비용 함수를 사용하여 선형 제곱 조절기(LQR)를 재계산한다.
폐쇄형 루프 컨트롤러의 성능(비용)은 실제 시스템에서 측정되어 BO의 目적 함수로 사용되며, 모델 파라미터에 대한 사후 분포를 업데이트하는 데 쓰인다.
BO의 획득 함수는 탐색과 이용의 균형을 맞춰 제어 비용을 최소화하는 모델을 효율적으로 탐색할 수 있도록 다음 평가할 θ를 지시한다.
원하는 성능 임계값에 도달하거나 최대 반복 횟수가 도달할 때까지 프로세스가 계속된다.

실험 결과

연구 질문

RQ1이론적 또는 노멀 시스템 동역학에서 유도된 모델보다 실제 제어 성능 피드백에서 직접 학습된 동역학 모델이 뛰어난 성능을 낼 수 있는가?
RQ2베이지안 최적화가 복잡한 로봇 시스템에서 높은 제어 성능을 달성하기 위해 필요한 물리적 실험 수를 얼마나 줄일 수 있는가?
RQ3성능 피드백을 통해 최적화된 작업 특화 동역학 모델은 전 세계적으로 정확하지만 상호 작용이 불일치하는 노멀 동역학 모델과 비교해 실질적으로 어떻게 다를까?
RQ4표준 시스템 식별 방식에서 실패하는 불완전한 모델링이나 비선형성 등에 의해 성능이 저하되는 상황에서, 제안된 프레임워크가 비모델링된 영향을 어떻게 다룰 수 있는가?
RQ5최적화 과정에서 잠재적으로 불안정한 제어 설정을 쿼리할 경우의 안전성 및 확장성은 어떠한가?

주요 결과

45회의 반복 후, aDOBO로 학습된 컨트롤러는 Crazyflie 큼직한 12차원 비선형 동역학 모델에서 유도된 노멀 컨트롤러보다 12% 높은 성능을 달성했다.
노멀 컨트롤러는 초반에 학습된 컨트롤러를 앞섰지만, aDOBO는 실세계의 비모델링된 동역학을 고려할 수 있는 능력 덕분에 몇 차례 반복 내에 이를 뛰어넘었다.
진정한 시스템 동역학에 대한 사전 지식 없이도, 프레임워크는 제어 성능을 최대화하는 동역학 모델을 성공적으로 학습했다.
이 방법은 데이터 효율성을 입증했으며, 실물 큼직한 로봇 시스템에서 단지 45회의 물리적 실험으로도 뛰어난 성능을 달성했다.
진정한 동역학이 비선형적이고 일부 알려져 있지 않은 상황에서도 예측 정확도가 아닌 제어 성능을 최적화하는 것이 실제 제어 결과를 더 좋게 만든다는 것이 결과적으로 입증되었다.
이 방법은 모델링 오차에 강건하며, 실로봇 행동에 영향을 주는 비선형성이나 항공역학적 외란, 센서 편향 등의 비모델링된 영향에도 적응할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.