Skip to main content
QUICK REVIEW

[論文レビュー] WINFlowNets: Warm-up Integrated Networks Training of Generative Flow Networks for Robotics and Machine Fault Adaptation

Zahin Sufiyan, Shadan Golestan|arXiv (Cornell University)|Mar 18, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

WINFlowNetsはウォームアップと二重訓練フレームワークで流れネットワークと検索(リトリーバル)ネットワークを共同訓練し、共有リプレイバッファを用いて動的で故障が起きやすいロボットタスクにおける連続適応を可能にし、平均報酬と安定性の点でCFlowNetsおよび標準的なRLベースラインを上回る。

ABSTRACT

Generative Flow Networks for continuous scenarios (CFlowNets) have shown promise in solving sequential decision-making tasks by learning stochastic policies using a flow and a retrieval network. Despite their demonstrated efficiency compared to state-of-the-art Reinforcement Learning (RL) algorithms, their practical application in robotic control tasks is constrained by the reliance on pre-training the retrieval network. This dependency poses challenges in dynamic robotic environments, where pre-training data may not be readily available or representative of the current environment. This paper introduces WINFlowNets, a novel CFlowNets framework that enables the co-training of flow and retrieval networks. WINFlowNets begins with a warm-up phase for the retrieval network to bootstrap its policy, followed by a shared training architecture and a shared replay buffer for co-training both networks. Experiments in simulated robotic environments demonstrate that WINFlowNets surpasses CFlowNets and state-of-the-art RL algorithms in terms of average reward and training stability. Furthermore, WINFlowNets exhibits strong adaptive capability in fault environments, making it suitable for tasks that demand quick adaptation with limited sample data. These findings highlight WINFlowNets' potential for deployment in dynamic and malfunction-prone robotic systems, where traditional pre-training or sample inefficient data collection may be impractical.

研究の動機と目的

  • 動的環境と故障時の連続的ロボット制御に対する堅牢な逐次決定を動機づける。
  • 事前訓練済みの検索ネットワークへの依存を排除するため、流れネットワークと検索ネットワークの両方を共訓練する。
  • 共有リプレイバッファを備えた二相訓練方式(Warm-Up + Dual-Training)を提案し、継続的適応を可能にする。
  • シミュレートされたロボット工学の故障においてCFlowNetsおよび従来のRLアルゴリズムよりも平均報酬と安定性を改善した。

提案手法

  • 共有リプレイバッファを用いた二ネットワークのGFlowNetフレームワークであるWINFlowNetsを導入。
  • Warm-Upフェーズでは観測された遷移を用いて推定 predecessor 状態を予測するリトリーバルネットワーク Gϕ を訓練。
  • Dual-Trainingフェーズでは流れネットワーク Fθ と Gϕ を流入/流出推定値と共有バッファを用いて同時更新。
  • Flow matching は Fθ と Gϕ による流入 f+(s) と流出 f−(s) の近似を log-sum-exp 形式で用いて行う。
  • 式2はサンプルされた行動と報酬に基づく連続流れマッチング損失を表す。
  • 訓練は Gϕ の事前訓練を回避し、分布外および故障シナリオへの適応を可能にする。
(a) Directed acyclic graph representation of the decision-making process in GFlowNet.
(a) Directed acyclic graph representation of the decision-making process in GFlowNet.

実験結果

リサーチクエスチョン

  • RQ1流れネットワークと検索ネットワークを事前訓練なしで共訓練することは、動的で故障が起きやすい環境への適応性を改善するか。
  • RQ2Warm-Up + Dual-TrainingのWINFlowNetsフレームワークは、正常および故障時のロボットタスクにおいて標準的なCFlowNetsとRLベースラインを上回るか。
  • RQ3共有リプレイバッファは、別々のバッファと比較して学習安定性と適応速度にどのような影響を及ぼすか。

主な発見

ModelFinal PerformanceSample Efficiency
SAC-7.89 ± 0.160.67
PPO-9.50 ± 0.373.39
DDPG-9.55 ± 0.445.20
CFlowNets-3.70 ± 0.050.10
WINFlowNets-2.39 ± 0.170.72
  • WINFlowNetsは正常なReacher-v2環境において平均報酬でCFlowNetsおよびRLベースライン(PPO、SAC、DDPG)を上回る。
  • 故障シナリオでは、WINFlowNetsはCFlowNetsおよびSACより最終性能を改善し、故障適応性がより良いことを示す。
  • 共有リプレイバッファを備えたWarm-Up + Dual-Trainingアーキテクチャは、いずれかの構成要素を欠くバリアントより安定的で優れた漸近性能をもたらす。
  • WINFlowNetsは漸近的な性能に到達するにはより多くの訓練サンプルを要するが、継続的適応によって最終ポリシー品質を高く保つ。
(b) An overview of our proposed decision-making framework.
(b) An overview of our proposed decision-making framework.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。