[논문 리뷰] Discounted Reinforcement Learning Is Not an Optimization Problem
이 논문은 계속되는 작업에서 할인된 강화학습가 전역 목표 함수의 부재로 인해 잘 정의된 최적화 문제로 간주될 수 없으며, 이로 인해 함수 근사와 할인이 호환되지 않는다고 주장한다. 대신 평균 보상 최대화를 제안하며, 이는 함수 근사 하에서도 잘 정의된 최적 정책을 가지는 올바른 최적화 문제이다.
Discounted reinforcement learning is fundamentally incompatible with function approximation for control in continuing tasks. It is not an optimization problem in its usual formulation, so when using function approximation there is no optimal policy. We substantiate these claims, then go on to address some misconceptions about discounting and its connection to the average reward formulation. We encourage researchers to adopt rigorous optimization approaches, such as maximizing average reward, for reinforcement learning in continuing tasks.
연구 동기 및 목표
- 계속되는 강화학습 작업에서 할인의 관례적 사용에 도전하기 위해.
- 할인된 RL이 잘 정의된 목표 함수가 없어 함수 근사와 함께 최적화가 불가능하다는 것을 보여주기 위해.
- 함수 근사 하에서도 잘 정의된 최적 정책을 가지는 올바른 최적화 문제로서 평균 보상 최대화가 가능하다는 것을 보여주기 위해.
- 할인과 평균 보상 설정 간의 오해를 명확히 하기 위해.
- 대규모의 계속되는 RL 응용 분야에서 철저한 최적화 프레임워크, 예를 들어 평균 보상 최대화를 주장하기 위해.
제안 방법
- 할인된 가치 함수의 수학적 구조를 분석하고, 정책 간의 총순서를 정의하지 못함을 보여준다.
- 함수 근사가 적용될 경우, 서로 다른 상태에서 비교 불가능한 정책이 존재하므로 할인 기반으로는 유일한 최적 정책을 명확히 정의할 수 없음을 입증한다.
- 할인된 설정과 평균 보상 설정을 비교하여, γ→1일 때 할인된 가치의 극한이 평균 보상과 동일하다는 것을 보여준다.
- RVI Q-학습 및 폐형 그라디언트를 갖는 액터-크리틱 방법을 포함한 평균 보상 RL을 위한 기존 알고리즘을 검토한다.
- 탐욕적 할인 수익 최대화가 평균 보상 최적 정책으로 수렴하지 않음을 강조한다.
- γ를 1에 가까이 끌어올리는 것이 알고리즘의 불안정성과 임계 할인율에 대한 지식 부족으로 인해 실용적으로 불가능하다고 주장한다.
실험 결과
연구 질문
- RQ1왜 계속되는 작업에서 할인된 강화학습은 잘 정의된 최적화 문제로 간주될 수 없는가?
- RQ2RL에서 함수 근사와 할인 간의 근본적인 불일치는 무엇인가?
- RQ3평균 보상 설정은 할인된 RL에서 존재하는 문제를 어떻게 해결하는가?
- RQ4할인 수익을 최대화하는 알고리즘이 평균 보상 최적 정책으로 수렴하지 못함을 입증할 수 있는가?
- RQ5왜 γ를 1로 끌어올리는 것은 실무에서 실현 가능하지 않은가?
주요 결과
- 계속되는 작업에서 할인된 강화학습는 전역 목표 함수가 존재하지 않기 때문에 최적화 문제로 간주될 수 없다.
- 함수 근사가 적용될 경우, 서로 다른 상태에서 비교 불가능한 정책이 존재하므로 할인 기반으로는 최적의 표현 가능한 정책을 정의할 수 없다.
- 평균 보상 설정은 잘 정의된 최적화 문제이며, 표현 가능한 최적 정책의 존재를 보장한다.
- 탐욕적 할인 수익 최대화는 평균 보상을 최적화하지 않으며, γ의 선택에 따라 정책이 달라진다.
- γ를 1로 끌어올리는 것은 이론적으로 평균 보상 최대화와 동일하지만, 알고리즘의 불안정성과 임계 할인율에 대한 지식 부족으로 인해 실용적으로 불가능하다.
- RVI Q-학습 및 정책 그래เดียน트 방법과 같은 평균 보상 최적화 알고리즘은 계속되는 작업에서 할인 기반 방법보다 더 안정적이고 이론적으로 탄탄하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.