[논문 리뷰] Cryptocurrency Portfolio Management with Deep Reinforcement Learning
이 논문은 역사적 암호화폐 가격 데이터로부터 직접 포트폴리오 가중치를 출력하는 컬러리티널 네트워크(CNN)를 사용한 모델 프리 딥 강화학습 접근법을 제안한다. 누적 수익을 최대화하기 위해 결정성 정책 기울기(DPG)를 통해 훈련된다. 폴로니엑스에서 30분 동안의 백테스트에서 CNN 에이전트는 1.8개월 동안 16.3배의 수익을 기록했으며, 대부분의 벤치마크보다 낮은 리스크를 기록했지만, 순수 수익에서는 PAMR에 약간 뒤지면서도 더 높은 샤프 지수를 기록했다.
Portfolio management is the decision-making process of allocating an amount of fund into different financial investment products. Cryptocurrencies are electronic and decentralized alternatives to government-issued money, with Bitcoin as the best-known example of a cryptocurrency. This paper presents a model-less convolutional neural network with historic prices of a set of financial assets as its input, outputting portfolio weights of the set. The network is trained with 0.7 years' price data from a cryptocurrency exchange. The training is done in a reinforcement manner, maximizing the accumulative return, which is regarded as the reward function of the network. Backtest trading experiments with trading period of 30 minutes is conducted in the same market, achieving 10-fold returns in 1.8 months' periods. Some recently published portfolio selection strategies are also used to perform the same back-tests, whose results are compared with the neural network. The network is not limited to cryptocurrency, but can be applied to any other financial markets.
연구 동기 및 목표
- 금융 이론이나 가정에 의존하지 않고 시장 가격 데이터에서 직접 학습하는 모델 프리, 엔드 투 엔드 포트폴리오 관리 시스템을 개발하는 것.
- 연속적인 포트폴리오 할당을 위한 딥 강화학습에서 이산 행동 공간과 Q-함수 추정의 한계를 해결하는 것.
- 특히 변동성이 높은 암호화폐 거래소와 같은 환경에서 딥 러닝을 활용해 확장 가능하고 적응 가능한 포트폴리오 거래를 가능하게 하는 것.
- 실제 백테스트 환경에서 기존의 포트폴리오 선택 알고리즘과 비교하여 제안된 방법의 성능을 평가하는 것.
제안 방법
- 컬러리티널 네트워크(CNN)가 다중 금융 자산의 원시 역사적 가격 행렬을 입력으로 받아 시장 패턴을 포트폴리오 가중치로 매핑하는 방식으로 학습한다.
- Q-함수 추정을 피하기 위해 누적 포트폴리오 수익을 기반으로 한 직접적인 보상 함수를 사용하여 결정성 정책 기울기(DPG) 알고리즘으로 훈련한다.
- 보상 함수는 포트폴리오의 로그 누적 수익으로 정의되며, 자산 증식을 장려하면서 리스크를 최소화하도록 한다.
- 훈련은 폴로니엑스 암호화폐 거래소의 0.7년치 가격 데이터를 기반으로 하며, 백테스트는 30분 간격의 거래로 수행된다.
- 하이퍼파ram터 튜닝과 모델 선택은 교차 검증을 통해 수행되지만, 훈련 및 테스트 세트 간의 시간적 밀접성으로 인해 성능 평가의 딜레마가 발생한다.
- 이 방법은 암호화폐에 국한되지 않고 어떤 금융 시장에도 확장 가능하도록 설계되어 있다.
실험 결과
연구 질문
- RQ1딥 강화학습 에이전트는 사전 금융 모델링 없이 원시 가격 데이터에서 직접 포트폴리오 가중치를 학습할 수 있는가?
- RQ2모델 프리, 연속 행동 딥 강화학습 접근법은 기존의 포트폴리오 선택 알고리즘과 비교해 수익과 리스크 측면에서 어떻게 다른가?
- RQ3훈련 및 테스트 데이터 간의 시간적 거리가 학습된 정책의 일반화 및 성능에 어떤 영향을 미치는가?
- RQ4직접 보상 설계를 적용한 결정성 정책 기울기 접근법은 암호화폐와 같은 고빈도·변동성 높은 시장에서 기존 방법을 초월할 수 있는가?
주요 결과
- CNN 에이전트는 백테스트 기간(2016년 5월 14일부터 7월 3일까지) 동안 최종 포트폴리오 가치가 16.305배에 달했으며, 유니버설 포트폴리오 및 기타 벤치마크보다 뚜렷이 뛰어난 성과를 기록했다.
- 패assing 애그레시브 미디언 리버전스(PAMR) 전략에 비해 누적 수익은 낮았지만, 더 높은 샤프 지수(0.296)와 낮은 최대 손실을 기록하여 리스크 조정 수익 측면에서 열등한 성능를 보였다.
- 에이전트의 성능은 훈련 및 테스트 세트 간의 시간적 거리에 매우 민감했으며, 더 가까운 테스트 기간일수록 더 좋은 결과를 보였고, 이는 시간 제한된 유효성 창을 시사한다.
- 교차 검증 및 테스트 세트에서 서로 다른 에포크에서 과적합이 발생했으며, 이는 과적합 억제와 단기 시장 패턴 유지 사이의 상충 관계를 시사한다.
- 이 방법은 사전 정의된 모델이나 시장 행동에 대한 가정에 의존하지 않기 때문에 다양한 금융 시장에 대해 확장성과 적응성을 보였다.
- 작은 훈련 세트와 제한된 자산 다양성으로 인해 네트워크의 깊이가 제한되었으며, 더 크고 다양한 데이터 세트를 사용할 경우 향상 가능성이 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.