[论文解读] Symbolic Regression is NP-hard
本文证明符号回归(SR)是NP-hard,通过将无限子集和问题归约到SR的判定变体来实现。还表明即使常量可以从分布中抽样,NP-hard性仍然成立。
Symbolic regression (SR) is the task of learning a model of data in the form of a mathematical expression. By their nature, SR models have the potential to be accurate and human-interpretable at the same time. Unfortunately, finding such models, i.e., performing SR, appears to be a computationally intensive task. Historically, SR has been tackled with heuristics such as greedy or genetic algorithms and, while some works have hinted at the possible hardness of SR, no proof has yet been given that SR is, in fact, NP-hard. This begs the question: Is there an exact polynomial-time algorithm to compute SR models? We provide evidence suggesting that the answer is probably negative by showing that SR is NP-hard.
研究动机与目标
- 通过函数组合和原始集对SR问题及其搜索空间进行形式化。
- 通过从USSP-Dec到SR-Dec的多项式时间归约,提供对SR的严格NP-hard性证明。
- 讨论当常量允许来自采样分布时,SR是否仍然是NP-hard。
- 在难度结果中澄清关于损失、计算时间和非递归SR函数的假设。
提出的方法
- 通过原始集P及其所引出的由组合函数构成的搜索空间F来定义SR。
- 将SR表述为在F上最小化损失L,其中f(x)可在多项式时间内计算,且L(y,f(x))。
- 证明SR-Dec在NP中,并将USSP-Dec约化到SR-Dec以证明NP-hard性。
- 给出推论1,显示即使常量在P内从R采样也存在NP-hard性,通过修改构造来实现。
- 构造带有单个观测的化简实例(在允许常量时后续为两个观测)以映射USSP。
实验结果
研究问题
- RQ1一般而言,符号回归是否NP-hard?
- RQ2当原始集必须包含常量采样分布时,SR是否仍然是NP-hard?
- RQ3SR-Dec是否能通过多项式归约覆盖无界子集和问题?
主要发现
- SR是NP-hard,通过在多项式时间内将USSP-Dec约化到SR-Dec来证明。
- 由于对f和L的求值是多项式时间的,SR-Dec属于NP。
- 即使原始集必须包含一个采样常数的机制(推论1),NP-hard性依然成立。
- 该化简使用带有线性特征和零损失阈值(epsilon)的受限SR实例,以映射USSP-Dec。
- 该证明通过假设一个多项式时间的SR求解器能够解 SR-Dec,从而解出 USSP-Dec,来给出反证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。