QUICK REVIEW

[논문 리뷰] Towards Characterizing Divergence in Deep Q-Learning

Joshua Achiam, Ethan Knight|arXiv (Cornell University)|2019. 03. 21.

Domain Adaptation and Few-Shot Learning참고 문헌 24인용 수 61

한 줄 요약

이 논문은 업데이트의 Taylor 확장을 통해 Deep Q-Learning의 발산을 분석하고, 함수 근사, 데이터 분포, 부트스트래핑의 역할을 식별하며, 일반적인 트릭 없이 학습을 안정시키는 PreQN을 제안합니다. 또한 PreQN을 자연 그래디언트 방법과 연관 짓고 MuJoCo 벤치마크에서 경쟁력 있는 성능을 시연합니다.

ABSTRACT

Deep Q-Learning (DQL), a family of temporal difference algorithms for control, employs three techniques collectively known as the `deadly triad' in reinforcement learning: bootstrapping, off-policy learning, and function approximation. Prior work has demonstrated that together these can lead to divergence in Q-learning algorithms, but the conditions under which divergence occurs are not well-understood. In this note, we give a simple analysis based on a linear approximation to the Q-value updates, which we believe provides insight into divergence under the deadly triad. The central point in our analysis is to consider when the leading order approximation to the deep-Q update is or is not a contraction in the sup norm. Based on this analysis, we develop an algorithm which permits stable deep Q-learning for continuous control without any of the tricks conventionally used (such as target networks, adaptive gradient optimizers, or using multiple Q functions). We demonstrate that our algorithm performs above or near state-of-the-art on standard MuJoCo benchmarks from the OpenAI Gym.

연구 동기 및 목표

딥 Q-러닝의 치명적 삼합(FUNCTION APPROXIMATION, 오프-폴리시 데이터, 부트스트래핑) 하에서의 발산에 대한 동기 부여 및 특성 규명.
sup 노름에서 수렴성의 성질을 이해하기 위한 1차 업데이트 연산자를 도출.
안정성과 일반화에 대한 신경 접선 커널(NTK)과 데이터 분포의 역할 파악.
Target 네트워크나 다중 Q-함수 없이 DQL을 안정화하기 위해 Preconditioned Q-Networks (PreQN)을 제안하고 평가.
특정 조건에서의 안정성을 설명하기 위해 PreQN을 자연 그래디언트 방법과 연결하기.

제안 방법

DQL 업데이트의 Taylor 확장을 수행하여 신경 접선 커널 K_theta와 재생 데이터 분포 D_rho를 포함하는 1차 연산자를 얻습니다.
함수 근사, 데이터 분포 및 부트스트래핑의 기여를 분리하여 수축 특성을 연구하는 근사 업데이트 U를 도출합니다.
업데이트 연산자 U1, U2, U3의 연속과 sup 노름 하의 수축 기준을 통해 직관을 확립합니다.
TD-오류(TD-errors)의 역행렬(K_theta의 역행치)을 사용하는 미니배치 기반의 TD-오류 프리컨디셔닝이 업데이트를 TD-errors와의 정렬(코사인 항)을 보장하는 라인 검색과 함께 이루어지도록 PreQN을 도입합니다.
공유된 샘플 추정치(Phi_theta를 포함한 행렬 형식) 하에서 PreQN과 자연 그래디언트 Q-러닝 간의 등가성을 보입니다.
DDPG 스타일의 PreQN의 의사코드를 제시하고 타깃 네트워크의 제거에 대해 논의합니다.
타깃 네트워크 제거 및 다중 Q-함수 없는 학습에서 PreQN의 작동을 보이고, Target 네트워크의 제거 여부를 논의합니다.

실험 결과

연구 질문

RQ11차 DQL 업데이트가 sup 노름에서 수축인지 여부와 치명적 삼합의 구성 요소가 안정성에 어떤 영향을 미치는지?
RQ2NTK(신경 접선 커널)가 DQL의 안정성 및 일반화에 어떤 영향을 미치며, 아키텍처 선택이 발산을 완화할 수 있는가?
RQ3프리컨디션드 업데이트(PreQN)가 Target 네트워크나 다중 Q-함수 없이 DQL을 안정화할 수 있으며 이것이 자연 그래디언트 방법과 어떤 관계가 있는가?
RQ4데이터 분포나 TD-오류의 수정이, NTK 주도 일반화 문제를 다루는지 여부를 포함하여, 발산 문제를 충분히 해결하는가?
RQ5PreQN이 TD3 및 SAC와 비교한 지속 제어 벤치마크에서의 성능은 어떠하며, 활성화 함수(sin vs relu)와 안정성 및 성능에 어떤 영향을 미치는가?

주요 결과

선형의 DQL 업데이트는 sup 노름에서의 수축 관점으로 분석될 수 있으며, K_theta, D_rho, T^*Q_theta의 역할이 강조됩니다.
NTK와 일반화의 정도(off-diagonal K 요소)에 의해 안정성이 좌우되며, 더 강한 일반화는 안정성을 해칠 수 있습니다.
PreQN은 K_theta의 미니배치 최소제곱 문제를 해결함으로써 TD-오류를 프리컨디션하고, 업데이트를 TD-errors와의 정렬을 보장하는 라인 검색으로 Q를 업데이트하여 비확장적(non-expansive)인 동작을 달성합니다.
PreQN은 동일한 샘플 기반 추정치 하에서 자연 그래디언트 Q-러닝과 동등하므로 일부 설정에서 Target 네트워크 없이도 관찰된 안정성을 설명합니다.
실험적 NTK 분석에 따르면 sin 활성화가 대각지배 NTK 구조를 형성하는 데 우호적일 수 있으며, PreQN-sin이 MuJoCo의 여러 작업에서 baselines를 능가하거나 비등한 성과를 보였습니다.
PreQN은 Target 네트워크 없이 표준 MuJoCo 벤치마크에서 안정적이고 경쟁력 있는 성능을 보이지만, relu 네트워크에서 때때로 발산하는 현상은 아키텍처 및 하이퍼파라미터의 고려가 여전히 중요함을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.