Skip to main content
QUICK REVIEW

[논문 리뷰] Symbolic regression outperforms other models for small data sets

Casper Wilstrup, Jaan Kasak|arXiv (Cornell University)|2021. 03. 28.
Explainable Artificial Intelligence (XAI)참고 문헌 22인용 수 27
한 줄 요약

본 연구는 250개의 관찰치로 구성된 소규모 학습 세트에서 QLattice 기반의 기호 회귀가 선형 모델, 의사결정 트리, 랜덤 포레스트, 그래디언트 부스팅보다 Out-of-sample 데이터에 대한 일반화가 우수하며, 240건 중 132건에서 모든 다른 모델을 능가했다는 것을 보여준다. 또한 해석 가능성을 유지한다.

ABSTRACT

Machine learning is often applied in health science to obtain predictions and new understandings of complex phenomena and relationships, but an availability of sufficient data for model training is a widespread problem. Traditional machine learning techniques, such as random forests and gradient boosting, tend to overfit when working with data sets of only a few hundred observations. This study demonstrates that for small training sets of 250 observations, symbolic regression generalises better to out-of-sample data than traditional machine learning frameworks, as measured by the coefficient of determination R2 on the validation set. In 132 out of 240 cases, symbolic regression achieves a higher R2 than any of the other models on the out-of-sample data. Furthermore, symbolic regression also preserves the interpretability of linear models and decision trees, an added benefit to its superior generalisation. The second best algorithm was found to be a random forest, which performs best in 37 of the 240 cases. When restricting the comparison to interpretable models, symbolic regression performs best in 184 out of 240 cases.

연구 동기 및 목표

  • 건강 과학에서 소규모 데이터셋으로 인한 모델링의 도전을 동기화한다.
  • 소형 학습 세트에서 기호 회귀의 일반화 성능을 전통적 모델과 비교 평가한다.
  • 기호 회귀와 다른 방법 간의 해석 가능성 트레이드를 평가한다.

제안 방법

  • 250샘플 학습 및 48개의 PMLB 회귀 데이터 세트에서 out-of-sample 평가를 통해 QLattice 기호 회귀를 선형 회귀, 결정 트리, 랜덤 포레스트, 및 그래디언트 부스팅과 비교한다.
  • 일반화의 주요 지표로 out-of-sample 검증 세트에서의 R^2를 사용한다.
  • 데이터 분할 간의 견고성을 평가하기 위해 데이터 세트당 5개의 서로 다른 250-관찰치 학습 세트를 샘플링한다.
  • Table 1에 기재된 일반적인 하이퍼파라미터를 포함하여 두 가지 QLattice 기준(AIC, BIC) 및 max_edges 제약 조건을 구성한다.
  • 첫 번째 순위 수와 240개의 모델-데이터 세트 러ntime에서의 가중 점수를 보고한다.

실험 결과

연구 질문

  • RQ1소규모 데이터가 부족할 때 기호 회귀가 기존 모델보다 out-of-sample 데이터에 대해 더 잘 일반화하는가?
  • RQ2작은 데이터 환경에서 기호 회귀의 해석 가능성은 선형 모델 및 의사결정 트리와 어떻게 비교되는가?

주요 결과

  • 기호 회귀(QLattice)가 최적 구성을 비교할 때 240건 중 132건에서 다른 모든 모델을 능가했다.
  • 모든 240건에 걸쳐 BIC 정렬을 가진 QLattice가 평균 성능이 가장 높았다(1위: 77; 가중 점수: 644; Best-first: 132; Best-weighted: 1033).
  • 기술 간 다섯 가지 최고 구성으로 한정했을 때, QLattice(BIC)가 132회의 1위를 차지했고 가중 점수도 가장 높았다(1033).
  • 두 번째로 높은 것은 그래디언트 부스팅과 랜덤 포레스트였으나 일반적으로 out-of-sample 일반화에서 기호 회귀에 뒤처졌다.
  • 해석 가능한 모델 중에서 기호 회귀는 240건 중 184건에서 우수했다(라소가 49건, 간단한 의사결정 트리가 7건).
  • 간단한 모델(예: 의사결정 트리)은 이 작은 데이터셋에서 앙상블보다 일반화가 더 잘되는 경향이 있으며, 기호 회귀는 학습과 일반화 사이의 균형을 잘 맞춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.