Skip to main content
QUICK REVIEW

[논문 리뷰] Visualizing Critic Match Loss Landscapes for Interpretation of Online Reinforcement Learning Control Algorithms

Jingyi Liu, Jian Guo|arXiv (Cornell University)|2026. 03. 15.
Adaptive Dynamic Programming Control인용 수 0
한 줄 요약

이 논문은 저-차원 부분공간에서 비평가 매치 손실 풍경을 구성하여 온라인 배우-비평가 RL에서 비평가 학습 과정을 시각화하고 정량화하여 제어 작업에서 수렴성과 안정성의 정성적 및 정량적 해석을 가능하게 한다.

ABSTRACT

Reinforcement learning has proven its power on various occasions. However, its performance is not always guaranteed when system dynamics change. Instead, it largely relies on users' empirical experience. For reinforcement learning algorithms with an actor-critic structure, the critic neural network reflects the approximation and optimization process in the RL algorithm. Analyzing the performance of the critic neural network helps to understand the mechanism of the algorithm. To support systematic interpretation of such algorithms in dynamic control problems, this work proposes a critic match loss landscape visualization method for online reinforcement learning. The method constructs a loss landscape by projecting recorded critic parameter trajectories onto a low-dimensional linear subspace. The critic match loss is evaluated over the projected parameter grid using fixed reference state samples and temporal-difference targets. This yields a three-dimensional loss surface together with a two-dimensional optimization path that characterizes critic learning behavior. To extend analysis beyond visual inspection, quantitative landscape indices and a normalized system performance index are introduced, enabling structured comparison across different training outcomes. The approach is demonstrated using the Action-Dependent Heuristic Dynamic Programming algorithm on cart-pole and spacecraft attitude control tasks. Comparative analyses across projection methods and training stages reveal distinct landscape characteristics associated with stable convergence and unstable learning. The proposed framework enables both qualitative and quantitative interpretation of critic optimization behavior in online reinforcement learning.

연구 동기 및 목표

  • 온라인 강화학습 제어 알고리즘의 해석에 대한 동기를 제공하며, 특히 비평가 구성요소에 초점을 맞춘다.
  • 온라인 학습 중 비평가 학습 다이내믹스를 이해하기 위한 시각화 프레임워크(비평가 매치 손실 풍경) 개발.
  • 객관적인 크로스런 비교를 가능하게 하는 정량적 풍경 지수 도입.
  • 역동적 제어 문제에서 풍경 기하학을 실제 시스템 성능과 연관지어 설명.

제안 방법

  • 참조 데이터/TD 타깃을 고정하고 그에 대한 그리드의 비평가 가중치에 대한 TD 오차를 평가하여 비평가 매치를 손실로 구성한다.
  • 에피소드가 끝날 때의 비평가 가중치를 기록하고 가중치 궤적에서 얻은 두 직교 방향으로 PCA를 통해 투영한다.
  • 최종 정책 주변의 비평가 학습을 시각화하기 위해 3D 손실 풍경과 2D 최적화 경로를 생성한다.
  • 정량적 풍경 지수(샤프니스, 베이슨 면적, 국소 이방성)를 도입하고 손실 값을 정규화하여 실행 간 비교를 가능하게 한다.
  • 시스템 성능 지수 J_H를 정의하여 일정 수평에서 풍경 기하학을 제어 성능과 연결한다.
Figure 1 : Structure of ADHDP
Figure 1 : Structure of ADHDP

실험 결과

연구 질문

  • RQ1온라인 RL에서 고정 참조 손실 풍경을 통해 비평가 학습을 어떻게 해석할 수 있는가?
  • RQ2다른 투영 방법과 학습 단계가 수렴 또는 불안정성과 관련된 뚜렷한 풍경 기하를 만들어내는가?
  • RQ3정량적 풍경 지수가 온라인 RL 제어에서 관찰된 수렴/발산을 예측하거나 설명할 수 있는가?
  • RQ4다양한 작업에서 풍경 기하학이 실제 동적 시스템 성능과 어떻게 연관되는가?

주요 결과

  • 수렴하는 카트-폴 학습은 PCA 방향이 분산의 69.9%와 25.7%를 설명하는 매끄러운 비평가 손실 풍경을 낳으며(총 95.6%).
  • 카트-폴의 경우 비평가 손실은 0에 수렴하고 배우의 기울기 크기도 감소하여 서브 최적이지만 안정적인 해로 수렴함을 시사한다.
  • 우주선 자세 제어 과제에서 학습은 비평가 손실과 배우 기울기에서 급격한 변동을 보이며 최종 정책에서 발산으로 귀결된다.
  • 비평가 풍경 접근법은 정성적 기하학적 시각을 제공하고, 도입된 지수로 실행 간 비교 및 학습 행동 해석에 정량적 근거를 제공한다.
  • 정규화된 수평 비용 J_H를 통해 풍경 기하학을 시스템 성능과 연결할 수 있어 과제 간 비교를 촉진한다.
(a) State trajectory
(a) State trajectory

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.