QUICK REVIEW

[論文レビュー] K-Myriad: Jump-starting reinforcement learning with unsupervised parallel agents

Vincenzo De Paola, Mirco Mutti|arXiv (Cornell University)|Jan 26, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

K-Myriad は、並列に多数の専門的で教師なしの探索ポリシーをトレーニングして集合的な状態エントロピーを最大化し、多様で堅牢な初期化を下流の RL タスクへ提供します。次に、コレクションの中から高性能なポリシーを1つ選択して下流 RL の初期化に使用します。

ABSTRACT

Parallelization in Reinforcement Learning is typically employed to speed up the training of a single policy, where multiple workers collect experience from an identical sampling distribution. This common design limits the potential of parallelization by neglecting the advantages of diverse exploration strategies. We propose K-Myriad, a scalable and unsupervised method that maximizes the collective state entropy induced by a population of parallel policies. By cultivating a portfolio of specialized exploration strategies, K-Myriad provides a robust initialization for Reinforcement Learning, leading to both higher training efficiency and the discovery of heterogeneous solutions. Experiments on high-dimensional continuous control tasks, with large-scale parallelization, demonstrate that K-Myriad can learn a broad set of distinct policies, highlighting its effectiveness for collective exploration and paving the way towards novel parallelization strategies.

研究の動機と目的

RL における探索効率を大規模な並列化で向上させ、多様な探索戦略を活用することを動機づける。
多数の環境レプリカに対して並列状態エントロピー objective を定義・最適化する。
集団的状態エントロピーを最大化するスケーラブルなポリシーアーキテクチャと勾配ベースの手法を開発する。
事前学習で得られた多様なポリシー集合が、下流タスクのサンプル効率と性能を改善できることを示す。

提案手法

単一ネットワーク内で多数の並列ポリシーを表現する共有トランクと複数の独立ヘッドを採用する。
明示的な密度推定なしに、並列状態訪問分布のエントロピーを直接推定する最近傍法エントロピー推定器を使用する。
推定された並列状態エントロピーの勾配を、すべてのポリシーヘッドとトランクのパラメータに対して最大化する。
各並列プロセスをポリシーヘッドに割り当て、GPU ベースのシミュレーターでスケーラブルかつ大規模なロールアウトを実現する。
パラメータ効率を保ちながら複数のプロセスが同じヘッドを共有できるようにしつつ、ヘッド間で特化性を維持する。

Figure 1 : Visualization of the k-NN entropy estimator (Eq. 1 ).

実験結果

リサーチクエスチョン

RQ1数百〜千の並列ポリシー全体の集合的状態訪問エントロピーを最大化することは、高次元連続領域で多様で専門的な探索行動を生み出すか。
RQ2多様でエントロピー駆動の事前学習ポリシー集合は、下流の RL アルゴリズムを初期化した場合、サンプル効率と性能を向上させるか。
RQ3ミリオン規模の平行ポリシーを最小限のメモリオーバーヘッドで訓練するためのスケーラブルなアーキテクチャと損失設計をどう作るべきか。
RQ4多様なポリシーセットによる事前学習は、複雑なタスクにおいて単一エージェントの最大エントロピー事前学習と比べてどの程度上回るか。

主な発見

Environment	10 Agents	50 Agents
Empty	0.9869±0.0160	1.3337±0.0099
Maze	0.5980±0.0267	1.0230±0.0164
Pyramid	0.5340±0.0333	0.8807±0.0288
Cave	0.8804±0.0399	1.0432±0.0153

K-Myriad は、共有トランクと独立ヘッドを用いて最大 50（実験では最大 1000 匹の蟻をシミュレート）という並列ポリシーの事前学習を実現した。
並列ポリシー集合は、単一エージェントのベースラインと比較して、難易度の高い環境（迷路風の環境や不均一な地形）でより高い多様性と広範な状態空間のカバレッジを達成した。
多様な並列ポリシーを用いた事前学習は、 locomotion タスクの PPO 初期化時に下流学習を速め、ランダム初期化や単一エージェント最大エントロピー事前学習を上回る成果をいくつかの設定で示した。
実証結果は、並列エージェント数を増やすと多様性とカバレージが向上し、異なるポリシー挙動が現れることを示す（KL 発散分析で裏付け）。
高忠実度シミュレーション（Isaac Sim Ants）において、並列性を高めると探索効率が改善され、下流タスクの初期化がより豊かになる。

Figure 2 : The parallel agent-environment interaction.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。