Skip to main content
QUICK REVIEW

[论文解读] Optimizing Market Making using Multi-Agent Reinforcement Learning

Yagna Patel|arXiv (Cornell University)|Jan 1, 2018
Blockchain Technology Applications and Security参考文献 4被引用 7
一句话总结

本文提出了一种用于优化加密货币交易中做市策略的双智能体深度强化学习框架:宏观智能体基于分钟级价格数据决定买入/卖出/持有,而微观智能体则在订单簿内优化限价单的挂单。该方法实现了稳定且低波动的利润增长,证明了强化学习在比特币交易等复杂、动态金融环境中的可行性。

ABSTRACT

In this paper, reinforcement learning is applied to the problem of optimizing market making. A multi-agent reinforcement learning framework is used to optimally place limit orders that lead to successful trades. The framework consists of two agents. The macro-agent optimizes on making the decision to buy, sell, or hold an asset. The micro-agent optimizes on placing limit orders within the limit order book. For the context of this paper, the proposed framework is applied and studied on the Bitcoin cryptocurrency market. The goal of this paper is to show that reinforcement learning is a viable strategy that can be applied to complex problems (with complex environments) such as market making.

研究动机与目标

  • 解决传统机器学习在高频交易中的局限性,例如高预测延迟和对市场波动的适应性差。
  • 开发一种基于强化学习的解决方案,能够自主优化复杂、动态市场中的战略交易决策与精确的订单挂单。
  • 评估多智能体强化学习框架是否能在类似真实世界的模拟环境中超越标准策略(如买入并持有和动量投资)的表现。
  • 探索在奖励延迟、高度不确定且部分可观测的金融环境中,使用强化学习进行做市的可行性。

提出的方法

  • 采用双智能体强化学习架构:宏观智能体基于分钟级tick数据决定买入、卖出或持有,而微观智能体则利用订单簿数据执行限价单挂单。
  • 宏观智能体使用深度Q学习,根据市场指标和历史价格数据选择动作,并维护一个持有的资产数量的实时计数。
  • 微观智能体采用深度Q学习,确定订单簿内最优的限价单价格和数量,且每10秒仅允许一次挂单。
  • 在使用Bittrex(2018年11月2日至17日)历史比特币数据的模拟环境中训练智能体,采用马尔可夫决策过程(MDP)建模,并使用折扣未来奖励。
  • 一个端到端的流水线集成了WebSocket数据摄入、智能体特定的特征工程、通过撮合引擎执行动作,以及用于奖励和状态更新的反馈回路。
  • 设计了奖励函数以反映利润,同时考虑了交易所手续费和持有行为,以改善策略学习。

实验结果

研究问题

  • RQ1多智能体强化学习框架是否能在复杂、部分可观测的金融环境中有效优化做市决策?
  • RQ2将战略决策(宏观智能体)与执行精度(微观智能体)分离,相较于单智能体或启发式方法,是否能显著提升性能?
  • RQ3在具有现实约束的模拟比特币市场中,深度Q学习在多大程度上能够学习到稳定且低波动的盈利策略?
  • RQ4奖励塑造和策略约束在多大程度上影响宏观智能体对持有行为和风险管理的学习?
  • RQ5数据质量问题和模拟市场动态对多智能体框架鲁棒性有何影响?

主要发现

  • 多智能体框架实现了稳定且低波动的利润增长,累计利润随时间线性增加,表明其性能稳健且一致。
  • 微观智能体成功优化了限价单的挂单策略,91%的订单为限价单,相比基线策略中的假设市价单,显著降低了交易所手续费。
  • 尽管宏观智能体单独表现强劲,但联合的多智能体策略在整体表现上仍逊于宏观智能体单独运行,主要原因是微观智能体偶尔在不利价格水平挂单,导致盈利能力下降。
  • 该框架展示了学习到一致策略的能力,能够根据价格趋势自适应调整——预期价格上涨时买入,预期下跌时卖出。
  • 研究识别出若干关键挑战,包括对持有动作的稀疏奖励以及无限头寸敞口的风险,这些问题需要进一步的奖励工程和约束集成。
  • 观察到WebSocket接口存在数据损坏和消息乱序的问题,凸显了在实际部署前必须进行严格的数据验证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。