QUICK REVIEW

[論文レビュー] Cartesian Genetic Programming Approach for Designing Convolutional Neural Networks

Maciej Krzywda, Szymon Łukasik|arXiv (Cornell University)|Sep 15, 2024

Evolutionary Algorithms and Applications被引用数 2

ひとこと要約

本稿では、1次元強化学習（RL）アプローチを提案し、UNetベースの方策ネットワークとProximal Policy Optimization（PPO）を用いて、高粒度な状態空間と行動空間を持つ2次元長方形ストリップパッキング問題を解く。高さマップと妥当性マスクを用いて状態空間と行動空間を1次元に低次元化することで、MaxRectsヒューリスティクスと同等の性能を達成し、中間報酬を用いることで、中程度のランダムなアイテムセットにおいてもそれを上回る性能を発揮する。

ABSTRACT

The present study covers an approach to neural architecture search (NAS) using Cartesian genetic programming (CGP) for the design and optimization of Convolutional Neural Networks (CNNs). In designing artificial neural networks, one crucial aspect of the innovative approach is suggesting a novel neural architecture. Currently used architectures have mostly been developed manually by human experts, which is a time-consuming and error-prone process. In this work, we use pure Genetic Programming Approach to design CNNs, which employs only one genetic operation, i.e., mutation. In the course of preliminary experiments, our methodology yields promising results.

研究の動機と目的

強化学習を用いた2次元長方形ストリップパッキングにおける高次元状態空間と行動空間の課題に対処すること。
訓練の安定性と収束性を向上させるために、ボックスの状態と行動空間の低次元1次元表現を開発すること。
従来のヒューリスティクスを超えた非長方形パッキングや複雑な制約への一般化を可能にすること。
RLベースのパッキングにおける終端報酬と中間報酬の形状の有効性を評価すること。
特定のシナリオにおいて、RLがMaxRectsヒューリスティクスと同等またはそれ以上の性能を達成できることを示すこと。

提案手法

ボックスの状態を5つのチャネルで表現する：チャネル1は正規化された高さマップ、チャネル2〜3は0°および90°回転のための2値妥当性マスク、チャネル4〜5は現在のアイテムの2次元形状埋め込み。
配置確率をX軸方向にのみモデル化することで、行動空間を2·wに低次元化し、回転なしと回転ありのアイテム用に別々のベクトルを用意する。
空間的相関をモデル化し、最適配置のためのセグメンテーションに類似した意思決定を可能にするために、1次元UNetアーキテクチャを方策ネットワークとして採用する。
Proximal Policy Optimization（PPO）を用いて、2種類の報酬関数（V1：終端のみ、V2：中間＋終端）を用いたRLエージェントを訓練する。
報酬関数V2を設計し、パッキング段階中に失われた領域をペナルティ化することで、早期の空間効率を促進する。
ボックスをw=125列、h=150行に離散化するが、エージェントの意思決定を1次元X軸配置に制限することで次元の呪いを軽減する。

実験結果

リサーチクエスチョン

RQ12次元ボックスの状態と行動空間の1次元表現は、RLベースのアプローチにおいて次元削減を実現しながらもパッキング性能を保持できるか？
RQ2中間報酬形状（V2）は、終端報酬のみ（V1）と比較して、RLエージェントが効率的なパッキングへ導く上でどのように優れているか？
RQ3高粒度な状態表現を用いて訓練されたRLエージェントは、MaxRectsヒューリスティクスの性能をどれほど再現または上回ることができるか？
RQ4視覚的でグリッド構造を持つ本手法は、非長方形形状や複雑な制約に対しても一般化可能か？
RQ5報酬関数設計が、さまざまなアイテムセットにおけるパッキング結果の安定性と分散に与える影響は何か？

主な発見

終端報酬のみのモデル（V1）は、固定サイズのアイテムセットではMaxRectsよりわずかに性能が劣ったが、ボックスの縁付近での戦略的計画を示した。
中間報酬バージョン（V2）はランダムなアイテムセットにおいてMaxRectsを上回り、早期フィードバックが一般化性と効率性を向上させることを示した。
V1およびV2の両方とも、MaxRectsよりも結果の分散が低く、パッキング結果の安定性と不確実性の低減を示した。
V2を用いたエージェントは、将来的な空間断片化を避けるために意図的に中央の空き領域を残す戦略的行動を学習した。
1次元UNet-PPOアプローチは、次元の呪いを効果的に緩和し、安定した訓練と高粒度なパッキング意思決定を可能にした。
本手法のアーキテクチャは、非長方形パッキングへの拡張やヒューリスティクスとの統合が可能であり、スケーラブルなRLフレームワークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。