QUICK REVIEW

[論文レビュー] Simulating human grandmasters: evolution and coevolution of evaluation functions

Omid David-Tabibi, H.J. van den Herik|arXiv (Cornell University)|Jul 8, 2009

Artificial Intelligence in Games参考文献 32被引用数 6

ひとこと要約

本論文では、人間のチェスグランドマスターの対局データから教師あり学習を行い、同時に非教師ありの共進化を組み合わせた遺伝的アルゴリズムを用いて、チェス評価関数を進化させる画期的な手法を提示している。得られたプログラムは、2度の世界コンピュータチェス選手権優勝歴のあるコンピュータチェスエンジンを上回り、人間の対局データベースからのみ構成された最先端の評価関数の進化に成功した初の事例である。

ABSTRACT

This paper demonstrates the use of genetic algorithms for evolving a grandmaster-level evaluation function for a chess program. This is achieved by combining supervised and unsupervised learning. In the supervised learning phase the organisms are evolved to mimic the behavior of human grandmasters, and in the unsupervised learning phase these evolved organisms are further improved upon by means of coevolution. While past attempts succeeded in creating a grandmasterlevel program by mimicking the behavior of existing computer chess programs, this paper presents the first successful attempt at evolving a state-of-the-art evaluation function by learning only from databases of games played by humans. Our results demonstrate that the evolved program outperforms a two-time World Computer Chess Champion.

研究の動機と目的

既存のコンピュータチェスプログラムに依存せずに、グランドマスタークラスのチェス評価関数を開発すること。
人間のグランドマスター対局データのみが、高水準の評価関数を進化させるのに十分な訓練データであるかどうかを検証すること。
人間プレーヤーの模倣を目的とした教師あり学習と、非教師ありの共進化を組み合わせることで、評価関数の品質がどのように向上するかを調査すること。
進化的計算が、既存のチェスエンジンやその評価関数にアクセスしないで、競争力のあるチェスエンジンを生成できることを実証すること。

提案手法

遺伝的アルゴリズムを用いて、人間グランドマスター対局データベースに基づくパrameter最適化により評価関数を進化させる。
教師あり段階では、個体（評価関数）を人間グランドマスターの手の選択を再現するように訓練する。
非教師あり共進化段階では、進化した関数同士が自己対戦で競い合い、性能を洗練・向上させる。
評価関数は、進化的選択により最適化されるボード特徴量の重み付き組み合わせとして表現される。
適応度は、訓練データベース内の人間グランドマスターの手の選択と、進化した関数の手の選択との一致度によって決定される。
共進化的ダイナミクスにより、初期の模倣を超えて、戦略的深さと正確性が段階的に向上する。

実験結果

リサーチクエスチョン

RQ1人間グランドマスター対局データベースのみを用いて、チェス評価関数をグランドマスタークラスに進化させることは可能か？
RQ2教師あり学習と共進化を組み合わせることで、教師あり学習単体よりも優れた性能が得られるか？
RQ3進化的計算を用いて、既存のコンピュータチェス選手のコードや評価関数に依存せずに、その性能を上回るチェスエンジンを生成できるか？
RQ4人間グランドマスターの行動は、評価パrameterの進化的最適化によってどの程度正確にモデル化可能か？

主な発見

進化した評価関数はグランドマスタークラスの性能を達成しており、人間の対局データのみで高水準のチェス知能を実現可能であることを示している。
共進化段階が、初期の教師あり学習段階をはるかに超える性能向上をもたらしており、両学習パラダイムの相乗効果が顕著に現れている。
最終的なプログラムは、2度の世界コンピュータチェス選手権優勝歴のあるコンピュータチェスエンジンを上回り、その競争力が裏付けられた。
本手法は、既存のコンピュータチェスエンジンやその評価関数にアクセスせず、かつ依存せずに、機能的な評価関数を成功裏に生成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。