[논문 리뷰] Symbolic Regression is NP-hard
논문은 기호 회귀(SR)가 NP-hard임을 unbounded subset sum 문제를 SR의 결정 variant로 환원하여 증명한다. 또한 상수는 분포에서 샘플링될 수 있어도 NP-hard 성질이 유지됨을 보인다.
Symbolic regression (SR) is the task of learning a model of data in the form of a mathematical expression. By their nature, SR models have the potential to be accurate and human-interpretable at the same time. Unfortunately, finding such models, i.e., performing SR, appears to be a computationally intensive task. Historically, SR has been tackled with heuristics such as greedy or genetic algorithms and, while some works have hinted at the possible hardness of SR, no proof has yet been given that SR is, in fact, NP-hard. This begs the question: Is there an exact polynomial-time algorithm to compute SR models? We provide evidence suggesting that the answer is probably negative by showing that SR is NP-hard.
연구 동기 및 목표
- 함수 구성과 기본 집합을 통해 SR 문제와 그 탐색 공간을 형식화한다.
- USSP-Dec로부터 다항시간 환원을 통해 SR에 대한 엄밀한 NP-hardness 증명을 제공한다.
- 상수가 샘플링 분포에서 허용될 때 SR이 여전히 NP-hard인지 다룬다.
- Hardness 결과에서 손실, 계산 시간, 재귀하지 않는 SR 함수에 대한 가정들을 명확히 한다.
제안 방법
- Primitive set P와 구성된 함수들의 탐색 공간 F를 통해 SR을 정의한다.
- 다항시간 계산 가능한 f(x)와 L(y,f(x))를 이용해 F에서 손실 L를 최소화하는 SR를 형식화한다.
- SR-Dec가 NP에 속함을 보이고 USSP-Dec를 SR-Dec로 환원하여 NP-hardness를 증명한다.
- Corollary 1에 의해 상수가 P 내에서 R로 샘플링되는 분포를 포함해야 한다는 조건에서도 NP-hardness가 성립함을 보여준다.
- USSP를 모방하기 위해 상수 허용 여부에 따라 단일 관찰 인스턴스(나중에는 상수를 허용할 때 두 개의 관찰)로 환원된 인스턴스를 구성한다.
실험 결과
연구 질문
- RQ1일반적으로 기호 회귀가 NP-hard인가?
- RQ2Primitive set에 상수 샘플링 분포 포함이 요구될 때 SR은 NP-hard로 남아 있는가?
- RQ3SR-Dec가 다항식 환원을 통해 미제한 부분합 문제를 포착할 수 있는가?
주요 결과
- SR은 NP-hard이며 USSP-Dec를 SR-Dec로 다항식 시간 내에 환원시켜 증명된다.
- SR-Dec는 SR의 평가 f와 L가 다항 시간에 가능하므로 NP에 속한다.
- primitive set가 상수를 샘플링하는 메커니즘을 반드시 포함해야 한다는 Corollary 1에도 NP-hardness가 성립한다.
- 환원은 USSP-Dec를 모방하기 위해 기능의 선형 합과 제로 손실 임계값(epsilon)으로 제한된 SR 인스턴스를 사용한다.
- 증명에서 SR-Dec를 다항식 시간으로 해결하는 가설의 반증으로 USSP-Dec를 해결할 수 있다는 reductio를 개략적으로 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.