QUICK REVIEW

[論文レビュー] An Introduction to Collective Intelligence

David H. Wolpert, Kagan Tumer|ArXiv.org|Aug 17, 1999

Game Theory and Applications参考文献 234被引用数 186

ひとこと要約

本論文は、中央集権的制御なしに、エージェントが強化学習（RL）を用いてグローバルなワールドユーティリティ関数を最適化できるようにする、大規模かつ分散型のシステム設計のためのフレームワークとして、集団知性（COIN）を導入する。個々のエージェントのインcentiveを集団的パフォーマンスと整合させる報酬関数を導出することで、トレイージャ・オブ・ザ・コモンズのような陥りがちな問題を回避し、パケットルーティングやリーダーフォロワー協調といった複雑な分散タスクにおいて、従来の手法を上回る性能を発揮する。

ABSTRACT

This paper surveys the emerging science of how to design a ``COllective INtelligence'' (COIN). A COIN is a large multi-agent system where: (i) There is little to no centralized communication or control; and (ii) There is a provided world utility function that rates the possible histories of the full system. In particular, we are interested in COINs in which each agent runs a reinforcement learning (RL) algorithm. Rather than use a conventional modeling approach (e.g., model the system dynamics, and hand-tune agents to cooperate), we aim to solve the COIN design problem implicitly, via the ``adaptive'' character of the RL algorithms of each of the agents. This approach introduces an entirely new, profound design problem: Assuming the RL algorithms are able to achieve high rewards, what reward functions for the individual agents will, when pursued by those agents, result in high world utility? In other words, what reward functions will best ensure that we do not have phenomena like the tragedy of the commons, Braess's paradox, or the liquidity trap? Although still very young, research specifically concentrating on the COIN design problem has already resulted in successes in artificial domains, in particular in packet-routing, the leader-follower problem, and in variants of Arthur's El Farol bar problem. It is expected that as it matures and draws upon other disciplines related to COINs, this research will greatly expand the range of tasks addressable by human engineers. Moreover, in addition to drawing on them, such a fully developed scie nce of COIN design may provide much insight into other already established scientific fields, such as economics, game theory, and population biology.

研究の動機と目的

中央集権的協調なしに、エージェントが集団的にグローバルユーティリティ関数を最適化する必要がある大規模で分散型のシステムを設計する課題に対処すること。
エージェントの自己利益最適化が集団的パフォーマンスを高めるよう保証するための、個々のRLエージェント用の報酬関数を特定すること。これにより、トレイージャ・オブ・ザ・コモンズのようなシステム的失敗を回避する。
詳細なシステムモデリングに依存せず、局所的情報と学習に依存する、モデルに依存しない柔軟なCOIN設計フレームワークを構築すること。
エリ・ファロール・バー問題やリーダーフォロワー協調といった人工ドメインにおける実験を通じて、不確実性下でも強固なパフォーマンスを示すことで、フレームワークの妥当性を検証すること。
ネットワーキング、最適化、生物学的システムにおける現実世界の問題へのCOIN原則の応用基盤を確立すること。

提案手法

COINを、最小限の中央集権的通信と、全システムの行動を評価するワールドユーティリティ関数を備えた大規模マルチエージェントシステムとして形式化する。
エージェントレベルで強化学習（RL）アルゴリズムを用い、各エージェントが局所的な報酬信号に基づいて自身のプライベートユーティリティを最大化するように学習させる。
「推定効果集合（guessed effect sets）」の概念に基づき、数学的フレームワークを用いて、個々のユーティリティとグローバルユーティリティの整合性を保証するエージェント報酬関数を設計する。
マクロラーニング（メタラーニングの一形態）を適用し、実行時におけるエージェント報酬関数を動的に調整することで、最適なシステム行動への収束を改善する。
合成ドメイン（例：エリ・ファロール・バー問題、リーダーフォロワー問題）における実験的検証を通じて、フレームワークの耐障害性とスケーラビリティをテストする。
グローバルシステム知識を用いるベースライン手法と比較することで、局所的で適応的なアプローチの優位性を示す。

実験結果

リサーチクエスチョン

RQ1分散型システムにおいて、エージェントの自己利益最適化が、報酬関数をどのように設計すれば、グローバルなワールドユーティリティを高めるようになるか？
RQ2COIN内のRLエージェントが、ブラエスのパラドックスや liqudity trap のようなシステム的失敗を引き起こさないよう、どのようなメカニズムを備えればよいか？
RQ3モデルに依存しない、局所的情報に基づくアプローチが、複雑な分散タスクにおいて、従来の中央集権的モデリングに基づく制御戦略を上回る性能を発揮できるか？
RQ4初期の報酬関数が最適でない場合に、システムが実行時にどのように適応して集団的パフォーマンスを向上させられるか？
RQ5COIN設計の理論的フレームワークは、インターネットルーティングや交通管理といった現実世界の問題に、どの程度応用可能か？

主な発見

グローバルユーティリティにエージェント報酬関数を整合させるという提案されたCOIN設計フレームワークは、エリ・ファロール・バー問題およびリーダーフォロワー協調タスクの両方で、従来手法を著しく上回る性能を発揮した。
ランダムな報酬行列を用いた実験では、マクロラーニングにより、一時的なパフォーマンス低下から回復し、最適な行動へ収束するのに対し、ベースラインシステムは停滞した。
理論的仮定が僅かにしか満たたない状況下でも、この手法は強力なパフォーマンスを達成しており、モデルの不確実性に対して高いロバストネスを示した。
局所的情報の使用とマクロラーニングによる報酬関数の適応的調整により、グローバルシステムモデリングを一切必要とせず、最適な集団的結果を達成できた。
適切にインcentiveを設計することで、トレイージャ・オブ・ザ・コモンズやブラエスのパラドックスといった集団的失敗モードを効果的に緩和した。
フレームワークは人工ドメインで検証され、既にインターネットパケットルーティングや高乗客数トールレーン設計といった現実世界の問題への応用が進行中である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。