Skip to main content
QUICK REVIEW

[論文レビュー] SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer

Nathan S. de Lara, Florian Shkurti|arXiv (Cornell University)|Feb 19, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

SMAC は offline critic を正則化し、データセットの action-score に action-gradient を合わせることで正則化を行い、Muon 最適化を用いて SAC、TD3、TD3+BC への offline から online へのスムーズな転送を 6 つの D4RL タスクで実現します。

ABSTRACT

Modern offline Reinforcement Learning (RL) methods find performant actor-critics, however, fine-tuning these actor-critics online with value-based RL algorithms typically causes immediate drops in performance. We provide evidence consistent with the hypothesis that, in the loss landscape, offline maxima for prior algorithms and online maxima are separated by low-performance valleys that gradient-based fine-tuning traverses. Following this, we present Score Matched Actor-Critic (SMAC), an offline RL method designed to learn actor-critics that transition to online value-based RL algorithms with no drop in performance. SMAC avoids valleys between offline and online maxima by regularizing the Q-function during the offline phase to respect a first-order derivative equality between the score of the policy and action-gradient of the Q-function. We experimentally demonstrate that SMAC converges to offline maxima that are connected to better online maxima via paths with monotonically increasing reward found by first-order optimization. SMAC achieves smooth transfer to Soft Actor-Critic and TD3 in 6/6 D4RL tasks. In 4/6 environments, it reduces regret by 34-58% over the best baseline.

研究の動機と目的

  • オンラインでファインチューニングした際に offline RL の事前学習済み actor-critic が performance を落としやすい理由を動機づける。
  • degradation なしで online の価値ベース RL と互換性を保つ offline actor-critic を作る方法を提案する。
  • 提案手法が複数タスクに渡って SAC、TD3、TD3+BC へのスムーズな転送を達成することを示す。
  • offline と online の maxima 之间の connectivity を定量化し、SMAC がその connectivity を改善することを示す。

提案手法

  • critic の action-gradient ∇a Q(s,a) をデータセットの action-score ∇a log πD(a|s) に合わせる理論にインスパイアされた正則化項を追加する。
  • データセットスコアを diffusion-based Reinforcement via Supervision (RvS) を用いて推定し ∇a log p(a|s,w) を得る。
  • SMAC critic loss を LSMAC(θ,ψ) = κ LSM(θ,ψ) + LAC(θ) として導入し、LSM が ∇a Q を αψ(s) εω(s,a,w,1) にマッチさせる。
  • SAC ポリシー目的 Lπ(φ) = E[ -Qθ(s,a) + log πφ(a|s) ]で学習する。
  • Adam の代わりに Muon をオプティマイザとして採用し、より平坦で転送に適した解を促す。
  • 標準的な SAC の実践のようにターゲットQネットワークとアンサンブルQ関数を使用する。
Figure 1: Past offline RL methods converge to maxima separated from online optima by low-reward valleys . Top: reward landscapes on the Kitchen task for CalQL (left) and SMAC (right). Blue and checkered flags being the real locations of the pre-trained and fine-tuned checkpoints on the landscape res
Figure 1: Past offline RL methods converge to maxima separated from online optima by low-reward valleys . Top: reward landscapes on the Kitchen task for CalQL (left) and SMAC (right). Blue and checkered flags being the real locations of the pre-trained and fine-tuned checkpoints on the landscape res

実験結果

リサーチクエスチョン

  • RQ1offline RL の事前学習済み actor-critic をオンラインで微調整して初期の performance 落としを避けられるか。
  • RQ2Q-function をデータセットの行動スコアに向けて正則化することで offline と online の maxima の connectivity が改善されるか。
  • RQ3SMAC を用いた場合、オンライン SAC/TD3/TD3+BC への転送は多様なタスクでスムーズか。
  • RQ4Muon は Adam と比較して offline からオンラインへの転送にどう影響するか。

主な発見

Online AlgorithmOffline AlgorithmAWRSACTD3TD3+BC
IQL0.5080.4710.6530.494
SMAC0.3800.0310.0900.226
TD3+BC0.6540.9620.5450.562
CalQL/CQL0.4820.4480.4420.614
  • SMAC は tested environments 全てで offline から online へのスムーズな転送を SAC へ達成(6/6)。
  • 6/6 の環境で、ベストベースラインと比較して online regret を 34–58% 減少。
  • SMAC は TD3 への転送も 6/6 環境でスムーズ、TD3+BC へは 4/6 環境でスムーズ。
  • 報酬ランドスケープ分析では、ベースラインの offline maxima は online SAC maxima へ線形に連結されない一方、SMAC maxima は online maxima へ線形に連結される。
  • データセットスコアを拡散推定して正則化に用いると offline および online の最適解間の connectivity が改善される。
Figure 2: Increasing dataset size and coverage does not bridge offline-to-online gap. We generate rollouts in two environments with a policy that has a 0.7 success rate and plot the offline-to-online performance as we increase the dataset size. We observe that even when the dataset is so large that
Figure 2: Increasing dataset size and coverage does not bridge offline-to-online gap. We generate rollouts in two environments with a policy that has a 0.7 success rate and plot the offline-to-online performance as we increase the dataset size. We observe that even when the dataset is so large that

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。