QUICK REVIEW

[논문 리뷰] Regularization Learning Networks: Deep Learning for Tabular Datasets

Ira Shavitt, Eran Segal|arXiv (Cornell University)|2018. 05. 16.

Machine Learning in Healthcare참고 문헌 16인용 수 23

한 줄 요약

이 논문은 표본 데이터에서 특성 중요도가 크게 다양할 경우 성능 향상을 이룰 수 있도록 각 가중치에 개별 정규화 계수를 할당하는 딥러닝 프레임워크인 정규화 학습 네트워크(Reinforcement Learning Networks, RLNs)를 소개한다. 학습 중에 새로운 반사적 손실(Counterfactual Loss)을 통해 이러한 계수를 최적화함으로써 별도의 검증 세트가 필요 없이 성능을 향상시키며, 기존의 딥 네트워크(DNNs)보다 훨씬 뛰어난 성능을 내고, 기울기 부스팅 트리(Gradient Boosting Trees, GBTs) 수준의 성능을 달성하면서도 매우 희박하고 해석 가능한 모델을 생성한다.

ABSTRACT

Despite their impressive performance, Deep Neural Networks (DNNs) typically underperform Gradient Boosting Trees (GBTs) on many tabular-dataset learning tasks. We propose that applying a different regularization coefficient to each weight might boost the performance of DNNs by allowing them to make more use of the more relevant inputs. However, this will lead to an intractable number of hyperparameters. Here, we introduce Regularization Learning Networks (RLNs), which overcome this challenge by introducing an efficient hyperparameter tuning scheme which minimizes a new Counterfactual Loss. Our results show that RLNs significantly improve DNNs on tabular datasets, and achieve comparable results to GBTs, with the best performance achieved with an ensemble that combines GBTs and RLNs. RLNs produce extremely sparse networks, eliminating up to 99.8% of the network edges and 82% of the input features, thus providing more interpretable models and reveal the importance that the network assigns to different inputs. RLNs could efficiently learn a single network in datasets that comprise both tabular and unstructured data, such as in the setting of medical imaging accompanied by electronic health records. An open source implementation of RLN can be found at https://github.com/irashavitt/regularization_learning_networks.

연구 동기 및 목표

표본 데이터에서 입력 특성 중요도의 변동성이 크기 때문에 딥 네트워크(DNNs)가 기울기 부스팅 트리(GBTs)에 비해 성능이 열등한 문제를 해결하기 위해.
표본 데이터와 같은 비분산 표현에서 사용되는 특성 중요도의 변동성에 대응하기 위해 각 가중치에 고유한 정규화 계수를 할당하는 것이 DNN 성능 향상에 기여하는지 조사하기 위해.
수백만 개의 개별 정규화 계수를 조정하는 데 있어 비현실적인 복잡도를 피할 수 있는 효율적인 하이퍼파rameter 튜닝 방법을 개발하기 위해.
예를 들어 전자 건강 기록과 의료 영상과 같은 비정형 데이터를 포함한 혼합 데이터 작업에서의 공동 학습을 가능하게 하기 위해.
의미 있는 특성 중요도를 반영하고 특성 선택을 지원하는 희박하고 해석 가능한 모델을 생성하기 위해.

제안 방법

학습 중에 정규화 계수와 가중치를 동시에 최적화하기 위해 새로운 손실 함수인 반사적 손실($\mathcal{L}_{CF}$)을 도입한다.
정규화 계수를 로그 공간에서 최적화하고, 매 업데이트 후에 투영을 적용하여 계수의 소실을 방지한다.
역전파 과정 중에 직접 하이퍼파rameter 튜닝을 이끄는 반사적 손실을 사용함으로써 별도의 검증 세트가 필요 없도록 한다.
모든 네트워크 가중치에 고유한 정규화 계수를 할당하여 특성 중요도의 변동성에 대응하는 모듈러 정규화를 가능하게 한다.
기울기 기반 최적화를 통해 가중치와 정규화 계수를 동시에 업데이트하면서 네트워크를 종합적으로 학습시킨다.
학습 후 희박성 제약 조건을 적용하여, 네트워크에서 최대 99.8%의 간선과 82%의 입력 특성을 제거함으로써 해석성을 향상시킨다.

실험 결과

연구 질문

RQ1입력 특성 중요도의 변동성이 큰 표본 데이터에서 각 가중치에 개별 정규화 계수를 할당하는 것이 DNN 성능 향상에 기여하는가?
RQ2검증 세트나 도함수 기반 최적화 외의 방법 없이 수백만 개의 정규화 계수를 효율적으로 최적화할 수 있는가?
RQ3반사적 손실은 딥 네트워크에서 가중치와 정규화 계수를 효과적으로 공동 최적화하는 데 어떻게 기여하는가?
RQ4RLNs는 얼마나 희박하고 해석 가능한 모델을 생성하여 표본 데이터에서 진정한 특성 중요도를 반영하는가?
RQ5RLNs는 기울기 부스팅 트리(GBTs)와 조합하여 앙상블을 구성함으로써 표본 예측 작업에서 최신 기술 성능을 달성할 수 있는가?

주요 결과

RLNs는 표본 데이터에서 DNN 성능을 크게 향상시키며, 표준 DNNs 대비 설명 가능한 분산을 2.75±0.05 배 증가시킨다.
RLNs는 기울기 부스팅 트리(GBTs) 수준의 성능을 달성하며, 특히 입력 특성 중요도의 변동성이 큰 환경에서 뛰어난 성능을 보인다.
RLNs와 GBTs의 앙상블은 4개의 특성 중 3개에서 다른 모든 앙상블보다 뛰어난 성능을 보이며, 마이크로바이옴 예측 작업에서 유일하게 성능이 떨어지는 특성 외에는 모두 최신 기술 성능을 달성한다.
RLNs는 매우 희박한 네트워크를 생성하여 최대 99.8%의 간선과 82%의 입력 특성을 제거하며, 이 희박성은 첫 10~20개의 학습 에포크 내에 달성된다.
RLNs에서 유도된 특성 중요도는 DNNs 대비 48%±1% 낮은 젠슨-쇼너 분산을 보이며, LMs 대비 54%±2% 낮아, 더 높은 일관성과 해석 가능성의 특징을 나타낸다.
RLNs에서 특성 중요도의 엔트로피는 4.6비트이며, DNNs의 9.5비트에 비해 더 의미 있고 균일하지 않은 특성 중요도 분포를 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.