QUICK REVIEW

[논문 리뷰] Entropy-regularized penalization schemes and reflected BSDEs with singular generators

Daniel Chee, Noufel Frikha|arXiv (Cornell University)|2026. 02. 20.

Stochastic processes and financial applications인용 수 0

한 줄 요약

연속 시간 최적 중지에 대한 엔트로피-정규화 페널라이제이션 스킴을 도입하고, 미국식 옵션으로의 수렴을 분석하며, 로그함수적으로 특이한 드라이버를 갖는 한계 RBSDE를 도출한다.

ABSTRACT

This paper extends our previous work to continuous-time optimal stopping, focusing on American options in an exploratory setting. Our first contribution is an entropy-regularized penalization scheme, inspired by classical penalization techniques for reflected BSDEs. It yields a smooth approximation of the stopping rule, promotes exploration, and enables gradient-based learning methods. We prove well-posedness, convergence, and illustrate numerical performance in low-dimensional examples. Our second contribution analyzes the behaviour of the scheme as the penalization parameter grows, showing that the limit solves a reflected BSDE with a logarithmically singular generator, for which we establish existence and uniqueness via a monotone limit argument.

연구 동기 및 목표

엔트로피-정규화 페널라이제이션을 연속 시간 최적 중지 및 exploratory 맥락의 미국식 옵션으로 확장한다.
페널라이제이션 및 온도 매개변수가 변화할 때 정규화된 스킴의 well-posedness와 수렴을 확립한다.
정규화 프레임워크에 맞춘 정책 개선 알고리즘(PIA)을 개발한다.
페널라이제이션 매개변수가 무한대로 커질 때의 극한 거동을 분석하고 결과로서의 특이한 RBSDE를 식별한다.
수치적 예시를 제공하고 정규화 스킴을 최적 중지에 대한 확률적 해석과 연결한다.

제안 방법

엔트로피-정규화된 BSDE를 수립하여 느슨한 제어 프레임워크 하에서 Snell 엔벨로프를 근사한다.
최적 제어에 대해 Gibbs 형태의 표현을 사용하고 고정 절단 n 및 온도 λ에 대한 Lipschitz 드라이버를 도출한다.
엔트로피-정규화된 BSDE의 well-posedness를 증명하고 λ→0일 때 고전적 페널라이즈된 값 V^n으로의 수렴을 분석한다.
λ ln(n)→0일 때 V^{λ,n}가 미국식 옵션 값 V로 수렴함을 보인다.
정책을 점진적으로 개선하고 정규화된 설정 내에서 가치 함수를 평가하기 위한 정책 개선 알고리즘(PIA)을 정의한다.
n→∞로의 극한을 조사하여 로그함수적으로 특이한 드라이버를 갖는 반사형 BSDE를 얻고 단조 한계 인자들을 통해 존재성/유일성을 확립한다.

실험 결과

연구 질문

RQ1엔트로피 정규화가 exploratory 맥락에서 연속 시간 최적 중지의 규칙성 및 계산 가능성에 어떤 영향을 미치는가?
RQ2적절히 조정된 페널라이제이션 및 온도 매개변수에서 엔트로피-정규화 스킴이 고전적 미국식 옵션 값으로 수렴하는가?
RQ3매개변수가 무한대로 커질 때의 극한 거동은 어떠하며 그 극한을 특이한 RBSDE로 특징지을 수 있는가?
RQ4실용적 계산을 위해 엔트로피-정규화 프레임워크에 정책 개선 알고리즘을 효과적으로 통합할 수 있는가?
RQ5극한 과정에 대해 어떤 확률적 해석이 도출되며 탐색 및 위험 고려와의 연결은 무엇인가?

주요 결과

엔트로피-정규화된 스킴은 고정된 n과 λ에 대해 Lipschitz 드라이버를 갖는 well-posed BSDE를 제공한다.
λ→0이고 λ ln(n)→0일 때 V^{λ,n}는 고전적 페널라이즈된 값 V^n으로 수렴하고 적절한 스케일링으로 미국식 옵션 값 V로 더 수렴한다.
n→∞에 대한 단조 한계는 로그함수적으로 특이한 드라이버를 갖는 반사형 BSDE로 이어지며 존재성/유일성은 단조 한계 인자를 통해 확보된다.
정책 개선 알고리즘이 제시되어 정규화 목적 아래 값의 단조 증가 시퀀스 V^{λ,m}를 생성한다.
저차원 설정에서 정규화 스킴과 PIA의 실용적 성능을 수치 실험으로 보여준다.
극한의 특이 드라이버를 분석하고, 엔트로피 정규화가 내재적 디폴트 리스크 및 조기 실행과의 확률적 해석으로 연결됨을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.