Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Learning Approximation for Stochastic Control Problems

Jiequn Han, E Weinan|arXiv (Cornell University)|2016. 11. 02.
Reinforcement Learning in Robotics참고 문헌 15인용 수 118
한 줄 요약

논문은 딥 신경망 접근법으로 고차원 유한-시간 확률적 제어 문제에서 모델 다이내믹스에 걸쳐 서브네트워크를 쌓아 시간 의존 제어를 직접 학습하여 금융 및 에너지 저장 벤치마크에서 거의 최적에 근접한 결과를 얻는다.

ABSTRACT

Many real world stochastic control problems suffer from the "curse of dimensionality". To overcome this difficulty, we develop a deep learning approach that directly solves high-dimensional stochastic control problems based on Monte-Carlo sampling. We approximate the time-dependent controls as feedforward neural networks and stack these networks together through model dynamics. The objective function for the control problem plays the role of the loss function for the deep neural network. We test this approach using examples from the areas of optimal trading and energy storage. Our results suggest that the algorithm presented here achieves satisfactory accuracy and at the same time, can handle rather high dimensional problems.

연구 동기 및 목표

  • 유한-시간 확률적 제어 문제에서 차원의 저주를 해소한다.
  • 딥 뉴럴 네트워크를 사용해 상태의 함수로서 최적 제어를 직접 학습한다.
  • 가치 함수 근사 대신 제어 근사화를 엔드투엔드로 집중한다.
  • 벌점 기반 학습 체계를 통해 모델 다이내믹스와 제약을 포함한다.
  • 금융 및 에너지 저장 분야의 고차원 문제로 확장 가능성을 입증한다.

제안 방법

  • 시간 의존 제어 a_t(s_t)를 신경망 서브네트워크로 표현하고 이를 시간에 걸쳐 쌓아 딥 네트워크를 형성한다.
  • 몬테카를로 샘플링을 사용해 확률적 궤적을 생성하고 총 비용 C_T를 학습 손실로 역전파한다.
  • SGD/Adam으로 서브네트워크를 훈련하고 은닉층에 배치 정규화와 ReLU 활성화를 적용한다.
  • 위반을 제곱 벌점 항 P_e와 P_ie를 누적 비용에 추가하여 제약을 포함한다.
  • 제어에 직접 작동한다(가치 함수 근사 없음) 그리고 상태를 s_{t+1}=s_t+b_t(s_t,a_t)+ξ_{t+1}로 전파한다.
  • 상태/제어 공간을 이산화하지 않고 고차원 문제를 처리한다.

실험 결과

연구 질문

  • RQ1깊은 피드포워드 네트워크가 시간 의존 제어를 근사해 고차원 확률적 제어 문제에서 거의 최적의 성능을 달성할 수 있는가?
  • RQ2대규모 포트폴리오 및 에너지 저장 시스템에서 확률적 다이나믹스 하에서 접근 방식의 확장성은 어떠한가?
  • RQ3네트워크 아키텍처(깊이, 폭)와 학습 설정이 해답의 질과 수렴에 어떤 영향을 미치는가?
  • RQ4제약을 벌점 항을 통해 제어 중심의 딥러닝 형식으로 얼마나 효과적으로 강제할 수 있는가?
  • RQ5제안된 방법이 벤치마크 문제에서 동적 프로그래밍/ADP 및 이산-룩업 테이블 기법과 어떻게 비교되는가?

주요 결과

  • 이 방법은 고차원 포트폴리오 거래 문제에서 거의 최적에近한 실행 비용을 얻으며 해석적 해법에 비해 상대 비용이 T=20, 25, 30에 대해 각각 1.001, 1.002, 1.009이다.
  • 거래 예시에서 상대 제어 오차는 작게 유지되며( T=20 및 T=25에서 3.7%; T=30에서 8.6%)
  • 에너지 저장 할당 벤치마크에서 제법 평균 상대 보상은 T=10에서 1.002, T=15에서 0.995를 달성하며 실행 시간은 수천 초대이다.
  • 다변수 에너지 저장 사례(n 디바이스 최대 50)에서 제어는 거의 최적 보상을 유지(예: n=30에서 0.926, n=40에서 0.965)하고 계산 시간은 수천 초에서 만 초대의 범위로 규모를 갖춘다.
  • 여러 제약을 벌점으로 처리하며 이산화 가정이 완화될 때 조회 표 기준선보다 더 나은 성능을 보일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.