QUICK REVIEW

[论文解读] Deep symbolic regression: Recovering mathematical expressions from data via policy gradients

Brenden K. Petersen|arXiv (Cornell University)|Dec 10, 2019

Evolutionary Algorithms and Applications被引用 9

一句话总结

该论文提出了一种基于循环神经网络的深度强化学习框架，通过策略梯度方法搜索最优数学表达式，显著优于遗传编程在从含噪和无噪数据中恢复符号表达式的表现。该方法将符号回归视为一个序列决策问题，能够在引入先验约束的同时实现对复杂表达式的精确恢复。

ABSTRACT

Discovering the underlying mathematical expressions describing a dataset is a core challenge for artificial intelligence. This is the problem of symbolic regression. Despite recent advances in training neural networks to solve complex tasks, deep learning approaches to symbolic regression are lacking. We propose a framework that combines deep learning with symbolic regression via a simple idea: use a large model to search the space of small models. More specifically, we use a recurrent neural network to emit a distribution over tractable mathematical expressions, and employ reinforcement learning to train the network to generate better-fitting expressions. Our algorithm significantly outperforms standard genetic programming-based symbolic regression in its ability to exactly recover symbolic expressions on a series of benchmark problems, both with and without added noise. More broadly, our contributions include a framework that can be applied to optimize hierarchical, variable-length objects under a black-box performance metric, with the ability to incorporate a priori constraints in situ.

研究动机与目标

为解决从数据中发现底层数学表达式这一核心人工智能与科学发现问题。
克服现有深度学习方法在符号回归中缺乏对复杂表达式有效搜索机制的局限性。
开发一种框架，实现在黑箱性能度量下对分层、可变长度符号表达式的高效、可微分搜索。
将先验约束直接整合到搜索过程中，提升所学表达式的泛化能力与可解释性。
在基准问题上展示相较于标准遗传编程在精确符号表达式恢复方面的优越性能。

提出的方法

使用策略梯度训练一个循环神经网络（RNN），以符号表达式作为标记序列生成，将搜索空间建模为序列决策过程。
RNN对表达式中可能的下一个符号输出概率分布，从而实现对数学表达式空间的随机探索。
强化学习通过基于生成表达式与观测数据拟合程度的奖励来优化RNN策略，完全匹配的表达式可获得高奖励。
该方法支持可变长度表达式和分层结构，可处理嵌套函数与运算等复杂数学构造。
可通过动作空间编码或奖励塑造，将变量类型或函数形式等约束直接嵌入，实现在搜索过程中融入领域知识。
该框架采用端到端的策略梯度方法进行训练，梯度通过RNN反向传播，实现随时间推移对表达式生成能力的持续优化。

实验结果

研究问题

RQ1深度强化学习方法是否能在从数据中恢复精确符号表达式方面优于传统遗传编程？
RQ2所提出方法在不同噪声水平的数据集上泛化能力如何？
RQ3在符号表达式搜索过程中，对声音约束（如函数形式、变量类型）的整合程度如何？
RQ4该框架能否在黑箱性能度量下有效搜索分层、可变长度的符号结构？
RQ5与无梯度进化方法相比，使用策略梯度是否能实现更高效、更精确的符号回归？

主要发现

所提方法在基准问题上，无论是否添加噪声，均显著优于标准遗传编程在恢复符号表达式方面的表现。
该框架能够实现对传统进化算法难以发现的复杂数学表达式的精确恢复。
该方法对噪声具有鲁棒性，在训练数据存在显著扰动时仍能保持高准确率。
在搜索过程中整合先验约束可提升所发现表达式的质量与可解释性。
使用策略梯度实现了对符号表达式空间的有效、可微分搜索，带来更快收敛与更好泛化性能。
该方法可推广至其他涉及在黑箱评估下对结构化、分层且可变长度对象进行优化的任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。