[논문 리뷰] Agent Inspired Trading Using Recurrent Reinforcement Learning and LSTM Neural Networks
이 논문은 원시 FX 가격 데이터에서 수익성 있고 리스크를 고려한 거래 전략을 자율적으로 학습할 수 있는 장기 단기 기억(LSTM) 네트워크를 사용한 순환 강화 학습 에이전트를 제안한다. 이 시스템은 정책 그래디언트 방법을 사용해 장기 보상 최적화를 수행하며, 비-LSTM 대비 우수한 성능을 보이며 특히 하락 위험 비율을 기반으로 훈련할 경우 변동성 높은 시장에서 손실 축소 효과를 보여, 리스크 조정 수익률이 뛰어나다.
With the breakthrough of computational power and deep neural networks, many areas that we haven't explore with various techniques that was researched rigorously in past is feasible. In this paper, we will walk through possible concepts to achieve robo-like trading or advising. In order to accomplish similar level of performance and generality, like a human trader, our agents learn for themselves to create successful strategies that lead to the human-level long-term rewards. The learning model is implemented in Long Short Term Memory (LSTM) recurrent structures with Reinforcement Learning or Evolution Strategies acting as agents The robustness and feasibility of the system is verified on GBPUSD trading.
연구 동기 및 목표
- 시험과 오류를 반복하는 강화 학습을 통해 최적의 전략을 학습하는 자율 거래 에이전트를 개발한다. 인간 트레이더의 행동을 모방한다.
- 차원의 저주와 취약성 등의 가치 함수 기반 강화 학습의 한계를 극복하기 위해 순환 강화 학습을 통한 직접 정책 최적화를 사용한다.
- LSTM 유닛과 드롭아웃 정규화를 활용해 순환 구조에서의 학습 안정성 향상 및 기울기 소실 문제 완화를 목표로 한다.
- 샤프 비율과 하방 변동성 비율을 포함한 다양한 리스크 조정 목표를 통해 성능을 평가함으로써 리스크 인식 거래 행동을 분석한다.
- 특히 고변동성 및 유동성 저하 조건에서 실시간 FX 데이터를 활용해 에이전트의 실현 가능성과 강건성을 입증한다.
- 수동적인 특성이나 도메인 전문 히우리스틱 없이 원시 가격 데이터에 직접 훈련함으로써 인간 간섭 최소화를 가능하게 한다.
제안 방법
- 원시 가격 시퀀스에서 직접 정책을 학습하는 순환 강화 학습 프레임워크를 사용하며, 가치 함수 근사 방식을 회피하기 위해 정책 그래디언트 방법을 적용한다.
- 금융 시계열의 시간적 의존성을 모델링하고, 시간에 따른 역전파 과정에서 기울기 소실 문제를 완화하기 위해 장기 단기 기억(LSTM) 네트워크를 사용한다.
- 학습 중 일반화 능력 향상과 과적합 방지를 위해 LSTM 레이어 내부에 드롭아웃 정규화를 적용한다.
- 기대 누적 보상에 대한 기울기 상승을 통해 에이전트의 정책을 최적화하며, 목표는 샤프 비율과 하방 변동성 비율로 설정한다.
- 노이즈가 많고 비정상적인 데이터에서의 수렴성과 강건성을 검증하기 위해 유전자 전략과 Nelder-Mead를 파생도 없는 최적화 방법으로 활용한다.
- GBPUSD FX 데이터를 대상으로 에이전트를 훈련 및 테스트하며, 거래 빈도와 비용을 균형 잡기 위해 바이어스 항목(b=1 대비 b=5)을 비교 분석한다.
실험 결과
연구 질문
- RQ1원시 FX 가격 데이터에서 수동적인 특성 없이 훈련된 순환 강화 학습 에이전트는 일반화 가능한 수익성 있는 거래 전략을 학습할 수 있는가?
- RQ2금융 시계열 거래에서 표준 RNN 대비 LSTM 네트워크의 사용이 학습 안정성과 성능 향상에 어떻게 기여하는가?
- RQ3변동성이 높은 시장에서 하방 변동성 비율 최적화가 샤프 비율 최적화보다 더 나은 리스크 조정 수익률을 제공하는가?
- RQ4하이퍼파rameter인 바이어스 항목(b)의 값이 실제 거래 환경에서 거래 빈도와 총 수익성에 어떻게 영향을 미치는가?
- RQ5저유동성 기간을 포함한 다양한 마켓 레지임에서도 에이전트는 강건하고 간섭 최소화된 성능을 달성할 수 있는가?
주요 결과
- LSTM 기반 순환 강화 학습 에이전트는 표준 RNN 베이스라인 대비 훈련 종료 시 더 높은 총 수익을 기록하여 장기 기억이 금융 시퀀스 모델링에 효과적임을 입증했다.
- b=5로 설정된 바이어스 항목을 사용한 경우 평균 거래 지속 시간이 약 6시간에서 약 70시간으로 감소하여 거래 비용을 크게 낮추고 순수 수익률을 향상시켰다.
- 하방 변동성 비율(DDR)을 최적화한 에이전트는 변동성 높은 시장 조건에서 샤프 비율 최적화 에이전트보다 낮은 손실과 더 리스크 회피 성향을 보였다.
- b=1일 경우 초기 가중치보다 성능이 열 劣한 것으로 나타나, 하이퍼파rameter 설정이 비최적일 경우 학습 결과가 악화될 수 있음을 시사하며, 정교한 튜닝의 중요성을 강조했다.
- 에이전트는 도메인 전문 히우리스틱 없이도 수익성 있는 전략을 성공적으로 발견하여, 실제 FX 데이터 기반의 종합적이고 자율적인 로보트레이딩 에이전트의 실현 가능성을 확인했다.
- 실증 결과에 따르면, 리스크 인식 목표인 DDR는 하방 보호에 효과적이며, 이는 수동적 또는 리스크 회피 전략에 적합한 에이전트로 활용 가능함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.