Skip to main content
QUICK REVIEW

[논문 리뷰] Entropy-regularized penalization schemes and reflected BSDEs with singular generators

Daniel Chee, Noufel Frikha|arXiv (Cornell University)|2026. 02. 20.
Stochastic processes and financial applications인용 수 0
한 줄 요약

연속 시간 최적 중지에 대한 엔트로피-정규화 페널라이제이션 스킴을 도입하고, 미국식 옵션으로의 수렴을 분석하며, 로그함수적으로 특이한 드라이버를 갖는 한계 RBSDE를 도출한다.

ABSTRACT

This paper extends our previous work to continuous-time optimal stopping, focusing on American options in an exploratory setting. Our first contribution is an entropy-regularized penalization scheme, inspired by classical penalization techniques for reflected BSDEs. It yields a smooth approximation of the stopping rule, promotes exploration, and enables gradient-based learning methods. We prove well-posedness, convergence, and illustrate numerical performance in low-dimensional examples. Our second contribution analyzes the behaviour of the scheme as the penalization parameter grows, showing that the limit solves a reflected BSDE with a logarithmically singular generator, for which we establish existence and uniqueness via a monotone limit argument.

연구 동기 및 목표

  • 엔트로피-정규화 페널라이제이션을 연속 시간 최적 중지 및 exploratory 맥락의 미국식 옵션으로 확장한다.
  • 페널라이제이션 및 온도 매개변수가 변화할 때 정규화된 스킴의 well-posedness와 수렴을 확립한다.
  • 정규화 프레임워크에 맞춘 정책 개선 알고리즘(PIA)을 개발한다.
  • 페널라이제이션 매개변수가 무한대로 커질 때의 극한 거동을 분석하고 결과로서의 특이한 RBSDE를 식별한다.
  • 수치적 예시를 제공하고 정규화 스킴을 최적 중지에 대한 확률적 해석과 연결한다.

제안 방법

  • 엔트로피-정규화된 BSDE를 수립하여 느슨한 제어 프레임워크 하에서 Snell 엔벨로프를 근사한다.
  • 최적 제어에 대해 Gibbs 형태의 표현을 사용하고 고정 절단 n 및 온도 λ에 대한 Lipschitz 드라이버를 도출한다.
  • 엔트로피-정규화된 BSDE의 well-posedness를 증명하고 λ→0일 때 고전적 페널라이즈된 값 V^n으로의 수렴을 분석한다.
  • λ ln(n)→0일 때 V^{λ,n}가 미국식 옵션 값 V로 수렴함을 보인다.
  • 정책을 점진적으로 개선하고 정규화된 설정 내에서 가치 함수를 평가하기 위한 정책 개선 알고리즘(PIA)을 정의한다.
  • n→∞로의 극한을 조사하여 로그함수적으로 특이한 드라이버를 갖는 반사형 BSDE를 얻고 단조 한계 인자들을 통해 존재성/유일성을 확립한다.

실험 결과

연구 질문

  • RQ1엔트로피 정규화가 exploratory 맥락에서 연속 시간 최적 중지의 규칙성 및 계산 가능성에 어떤 영향을 미치는가?
  • RQ2적절히 조정된 페널라이제이션 및 온도 매개변수에서 엔트로피-정규화 스킴이 고전적 미국식 옵션 값으로 수렴하는가?
  • RQ3매개변수가 무한대로 커질 때의 극한 거동은 어떠하며 그 극한을 특이한 RBSDE로 특징지을 수 있는가?
  • RQ4실용적 계산을 위해 엔트로피-정규화 프레임워크에 정책 개선 알고리즘을 효과적으로 통합할 수 있는가?
  • RQ5극한 과정에 대해 어떤 확률적 해석이 도출되며 탐색 및 위험 고려와의 연결은 무엇인가?

주요 결과

  • 엔트로피-정규화된 스킴은 고정된 n과 λ에 대해 Lipschitz 드라이버를 갖는 well-posed BSDE를 제공한다.
  • λ→0이고 λ ln(n)→0일 때 V^{λ,n}는 고전적 페널라이즈된 값 V^n으로 수렴하고 적절한 스케일링으로 미국식 옵션 값 V로 더 수렴한다.
  • n→∞에 대한 단조 한계는 로그함수적으로 특이한 드라이버를 갖는 반사형 BSDE로 이어지며 존재성/유일성은 단조 한계 인자를 통해 확보된다.
  • 정책 개선 알고리즘이 제시되어 정규화 목적 아래 값의 단조 증가 시퀀스 V^{λ,m}를 생성한다.
  • 저차원 설정에서 정규화 스킴과 PIA의 실용적 성능을 수치 실험으로 보여준다.
  • 극한의 특이 드라이버를 분석하고, 엔트로피 정규화가 내재적 디폴트 리스크 및 조기 실행과의 확률적 해석으로 연결됨을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.