[논문 리뷰] Optimizing Market Making using Multi-Agent Reinforcement Learning
이 논문은 암호화폐 거래에서 시장 메이킹을 최적화하기 위한 이중 에이전트 딥 강화학습 프레임워크를 제안한다: 매크로 에이전트는 분 단위 가격 데이터를 바탕으로 매수/매도/홀드를 결정하고, 마이크로 에이전트는 오더 북 내에서 지정가 주문을 최적화한다. 이 접근법은 안정적이고 변동성이 낮은 수익 성장을 달성하여 강화학습이 비트코인 거래와 같은 복잡하고 동적인 금융 환경에서 실현 가능함을 보여준다.
In this paper, reinforcement learning is applied to the problem of optimizing market making. A multi-agent reinforcement learning framework is used to optimally place limit orders that lead to successful trades. The framework consists of two agents. The macro-agent optimizes on making the decision to buy, sell, or hold an asset. The micro-agent optimizes on placing limit orders within the limit order book. For the context of this paper, the proposed framework is applied and studied on the Bitcoin cryptocurrency market. The goal of this paper is to show that reinforcement learning is a viable strategy that can be applied to complex problems (with complex environments) such as market making.
연구 동기 및 목표
- 고주기 거래에서 전통적인 머신러닝의 한계, 즉 높은 예측 지연과 시장 변화에 대한 낮은 적응성 해결을 위한 것.
- 복잡하고 동적인 시장에서 전략적 거래 결정과 정밀한 주문 배치를 자동으로 최적화할 수 있는 강화학습 기반 솔루션 개발을 위한 것.
- 실제와 유사한 시뮬레이션 환경에서 표준 전략(예: 매수 후持有 및 모멘타움 투자)보다 다중 에이전트 강화학습 프레임워크가 우월한가 평가하기 위한 것.
- 지연된 보상과 높은 불확실성을 포함한 혼란스럽고 부분 관측 가능한 금융 환경에서 강화학습을 사용한 시장 메이킹의 가능성을 탐색하기 위한 것.
제안 방법
- 이중 에이전트 강화학습 아키텍처를 사용한다: 매크로 에이전트는 분 단위 틱 데이터를 기반으로 매수, 매도, 홀드를 결정하고, 마이크로 에이전트는 오더 북 데이터를 사용해 지정가 주문을 배치한다.
- 매크로 에이전트는 시장 지표와 이전 가격 데이터를 기반으로 행동을 선택하기 위해 딥 Q러닝을 사용하며, 보유 자산의 누적 수를 유지한다.
- 마이크로 에이전트는 오더 북 내에서 최적의 지정가 주문 가격과 수량을 결정하기 위해 딥 Q러닝을 활용하며, 10초에 한 번씩만 주문을 배치하도록 제약을 둔다.
- 에이전트들은 Bittrex(2018년 11월 2일~17일)의 역사적 비트코인 데이터를 사용해 시뮬레이션 환경에서 훈련하며, 마코프 결정 과정(MDP) 수식과 할인된 미래 보상을 사용한다.
- WebSocket 데이터 수신, 에이전트별 특성 추출, 매칭 엔진 통한 행동 실행, 보상 및 상태 업데이트를 위한 피드백 루프를 포함하는 파이프라인을 구축한다.
- 수익 함수는 수익을 반영하도록 설계되었으며, 거래 수수료와 보유 행동 조정을 고려해 정책 학습을 향상시킨다.
실험 결과
연구 질문
- RQ1다중 에이전트 강화학습 프레임워크는 복잡하고 부분 관측 가능한 금융 환경에서 시장 메이킹 결정을 효과적으로 최적화할 수 있는가?
- RQ2전략적 의사결정(매크로 에이전트)과 실행 정밀도(마이크로 에이전트)를 분리함으로써 단일 에이전트 또는 히우리스틱 접근 방식 대비 성능 향상은 얼마나 이루어지는가?
- RQ3딥 Q러닝은 현실적인 제약 조건이 있는 시뮬레이션 비트코인 시장에서 안정적이고 변동성이 낮은 수익 생성 전략을 얼마나 잘 학습할 수 있는가?
- RQ4보상 형태 조정과 정책 제약 조건은 매크로 에이전트의 보유 행동 및 리스크 관리 학습에 어떤 영향을 미치는가?
- RQ5데이터 품질 문제와 시뮬레이션된 마켓 다이내믹스는 다중 에이전트 프레임워크의 견고성에 어떤 영향을 미치는가?
주요 결과
- 다중 에이전트 프레임워크는 안정적이고 변동성이 낮은 수익 성장을 달성했으며, 누적 수익이 시간이 지남에 따라 선형적으로 증가함으로써 강력하고 일관된 성능을 보였다.
- 마이크로 에이전트는 지정가 주문 배치를 효과적으로 최적화했으며, 총 주문의 91%가 지정가 주문이었고, 기준 전략에서의 시장 주문 대비 거래 수수료가 감소했다.
- 매크로 에이전트만으로도 뛰어난 성능를 보였음에도 불구하고, 병합된 다중 에이전트 전략은 매크로 에이전트 단독 실행 대비 성능이 열 劣했으며, 주로 마이크로 에이전트가 시장 가격보다 열 劣한 가격에 주문을 배치해 수익성이 감소했기 때문이다.
- 프레임워크는 가격 추세에 적응하는 일관된 정책을 학습할 수 있었으며, 가격 상승 예측 시 매수하고 하락 예측 시 매도하는 방식을 따르는 것으로 나타났다.
- 연구는 희박한 보상에 따른 보유 행동 학습과 무한정 위치 노출의 위험성 등의 주요 과제를 밝혀냈으며, 이는 향후 보상 엔지니어링과 제약 통합이 필요함을 시사한다.
- WebSocket 인터페이스에서 데이터 손상 및 순서가 어긋난 메시지 문제가 관측되었으며, 이는 실세계 구현 전에 강력한 데이터 검증이 필요함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.