[论文解读] Symbolic Regression via Neural-Guided Genetic Programming Population Seeding
一种混合方法,用神经引导搜索样本来种子遗传编程族群,然后进化以提升符号回归性能。
Symbolic regression is the process of identifying mathematical expressions that fit observed output from a black-box process. It is a discrete optimization problem generally believed to be NP-hard. Prior approaches to solving the problem include neural-guided search (e.g. using reinforcement learning) and genetic programming. In this work, we introduce a hybrid neural-guided/genetic programming approach to symbolic regression and other combinatorial optimization problems. We propose a neural-guided component used to seed the starting population of a random restart genetic programming component, gradually learning better starting populations. On a number of common benchmark tasks to recover underlying expressions from a dataset, our method recovers 65% more expressions than a recently published top-performing model using the same experimental setup. We demonstrate that running many genetic programming generations without interdependence on the neural-guided component performs better for symbolic regression than alternative formulations where the two are more strongly coupled. Finally, we introduce a new set of 22 symbolic regression benchmark problems with increased difficulty over existing benchmarks. Source code is provided at www.github.com/brendenpetersen/deep-symbolic-optimization.
研究动机与目标
- 通过将神经引导搜索与遗传编程种子相结合,激发并解决 NP-hard 的符号回归问题。
- 开发一个两组件系统,其中自回归神经序列生成器为 GP 群体提供种子,随后进化并告知神经训练者。
- 显示大量带神经引导种子的 GP 代数能优于紧耦合的替代方案并改善探索。
提出的方法
- 将表达式表示为带前序遍历的代数表达树。
- 使用自回归 RNN 作为序列生成器来产生一批候选表达式。
- 用 RNN 一批次来种子 GP 起始种群并运行 S 次 GP 代。
- 使用基于 NRMS E 的适应度进行评估,并将其转换为奖励 R(τ)=1/(1+NRMSE)。
- 用三种选项训练 RNN:Vanilla Policy Gradient (VPG)、Risk-Seeking Policy Gradient (RSPG),或 Priority Queue Training (PQT)。
- 约束 GP 操作以满足任务特定约束,并允许多种变异类型以增加多样性。
实验结果
研究问题
- RQ1神经引导采样能否有效为 GP 种群提供种子,从而改善符号回归的恢复率?
- RQ2在每个 RNN 训练步骤中改变 GP 代数(S)对性能和探索有何影响?
- RQ3相比紧耦合或单组件方法,松耦合的混合(GP_seeded-RNN 训练)在符号回归中是否更有效?
- RQ4不同的 RNN 训练策略(VPG、RSPG、PQT)对该混合设置的整体性能有何影响?
- RQ5约束和多样化的 GP 变异操作是否显著改善恢复和泛化?
主要发现
- 在相同设置下,该混合方法在常见基准上比最近表现最佳的模型多恢复 65% 的表达式。
- GP 在一个由逐步学习的 RNN 样本逐步种子化的类似随机重启循环中运行,随着时间推移能够得到更好的起始群体。
- 在不强依赖神经组件的情况下运行多次 GP 代可以超过紧耦合的变体。
- 在 Nguyen 基准问题上,该方法的恢复率高于包括 DSR、PQT、VPG、GP、Eureqa 在内的若干基线,且平均收益。
- 引入了一个新的 Livermore 基准集,难度增大,用以压力测试符号回归方法。
- 消融研究表明,PQT、适当的 GP 多样性以及约束执行有助于鲁棒性能;完全的策略内回或策略外极端会降低结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。