Skip to main content
QUICK REVIEW

[論文レビュー] Finite-State Decentralized Policy-Based Control With Guaranteed Ground Coverage

Hossein Rastgoftar|arXiv (Cornell University)|Jan 5, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

tldr: finite-state, decentralized policy-based framework for multi-agent ground coverage with DNN-like communication structure, local MDPs, and Anyway Output Controllability to ensure convergence to target representations.

ABSTRACT

We propose a finite-state, decentralized decision and control framework for multi-agent ground coverage. The approach decomposes the problem into two coupled components: (i) the structural design of a deep neural network (DNN) induced by the reference configuration of the agents, and (ii) policy-based decentralized coverage control. Agents are classified as anchors and followers, yielding a generic and scalable communication architecture in which each follower interacts with exactly three in-neighbors from the preceding layer, forming an enclosing triangular communication structure. The DNN training weights implicitly encode the spatial configuration of the agent team, thereby providing a geometric representation of the environmental target set. Within this architecture, we formulate a computationally efficient decentralized Markov decision process (MDP) whose components are time-invariant except for a time-varying cost function defined by the deviation from the centroid of the target set contained within each agent communication triangle. By introducing the concept of Anyway Output Controllability (AOC), we assume each agent is AOC and establish decentralized convergence to a desired configuration that optimally represents the environmental target.

研究の動機と目的

  • 構造化された、拡張可能なマルチエージェント地上カバーのための参照配置に基づく通信アーキテクチャを紹介する。
  • DNN誘導ウェイトを介して環境ターゲットの形状を動的ニューラルネットワーク表現へエンコードする。
  • 各フォロワーが局所の時不変MDPを解く完全に分散された学習フレームワークを開発する。
  • Anyway Output Controllabilityの概念を用いて収束と編成保証を確保する。
  • 提案されたポリシーベースのアプローチの下での収束の分析とシミュレーション証拠を提供する。

提案手法

  • 階層的なアンカー–フォロワー通信スキームを定義し、エージェントチームのフィードフォワード動的ニューラルネットワーク表現を誘導する。
  • 各フォロワーが通信三角形内で学習する離散的なDNNウェイトのセットを得るための分散・時不変な局所MDPを定式化する。
  • 通信ウェイトを有限離散集合に制約し、分散収束を保証するために行常 stochastic性を課す。
  • Anyway Output Controllability (AOC) を導入してポリシー学習を特定のエージェントダイナミクスから切り離し、異質性を可能にする。
  • 時変の行列接触を介してフォロワーのダイナミクスがアンカーの凸結合へと安定性と収束を持つことを証明する。
  • ターゲット sensing と coverage を各フォロワーの状態空間内の局所コストとセントロイドベースのゴール状態でモデル化する。

実験結果

リサーチクエスチョン

  • RQ1構造化された階層的通信トポロジをどのように参照エージェント配置から誘導して、スケーラブルで分散化されたカバーを支援できるか。
  • RQ2局所MDPを介した有限・離散ウェイトの分散学習が分散ターゲット集合の信頼性あるカバーを達成できるか。
  • RQ3Anyway Output Controllability は時変通信下でフォロワーエージェントが環境ターゲットを表す配置へ収束することを保証するか。
  • RQ4結果として生じる時非同型マルコフ過程の安定性特性はどうなるか。
  • RQ5アンカー–フォロワーアーキテクチャは異種チームのダイナミクスに依存しないカバーを促進できるか。

主な発見

  • 提案フレームワークは、行列が行-stochasticの時変マルコフ過程をエージェント位置へ適用し、収束解析を可能にする。
  • フォロワーの座標は定義された仮定の下でアンカーの座標の凸結合へ収束する。
  • DNN構造は参照配置から一意に誘導され、スケーラブルで階層的なエージェント間接続を可能にする。
  • 有限離散ウェイトセットを持つ局所MDPにより、勾配伝播や集中したクリティックが不要な完全分散学習を可能にする。
  • Anyway Output Controllability はポリシー学習を特定エージェントダイナミクスから切り離し、異質性と非線形性を支援する。
  • シミュレーション結果は、提案されたポリシーベースアプローチの下で収束とカバー特性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。