QUICK REVIEW

[논문 리뷰] On Embeddings for Numerical Features in Tabular Deep Learning

Yury Gorishniy, Ivan Rubachev|arXiv (Cornell University)|2022. 03. 10.

Model Reduction and Neural Networks인용 수 58

한 줄 요약

이 논문은 표 형식 딥러닝에서 수치 특징에 대한 임베딩 스킴(조각형 선형 인코딩과 주기적 활성화)을 도입하고, 여러 백본에서 성능을 크게 향상시키며 여러 벤치마크에서 GBDT와의 격차를 줄임을 보인다.

ABSTRACT

Recently, Transformer-like deep architectures have shown strong performance on tabular data problems. Unlike traditional models, e.g., MLP, these architectures map scalar values of numerical features to high-dimensional embeddings before mixing them in the main backbone. In this work, we argue that embeddings for numerical features are an underexplored degree of freedom in tabular DL, which allows constructing more powerful DL models and competing with GBDT on some traditionally GBDT-friendly benchmarks. We start by describing two conceptually different approaches to building embedding modules: the first one is based on a piecewise linear encoding of scalar values, and the second one utilizes periodic activations. Then, we empirically demonstrate that these two approaches can lead to significant performance boosts compared to the embeddings based on conventional blocks such as linear layers and ReLU activations. Importantly, we also show that embedding numerical features is beneficial for many backbones, not only for Transformers. Specifically, after proper embeddings, simple MLP-like models can perform on par with the attention-based architectures. Overall, we highlight embeddings for numerical features as an important design aspect with good potential for further improvements in tabular DL.

연구 동기 및 목표

표 형식 DL에서 수치 특징의 임베딩을 설계 선택으로 강조한다.
두 가지 임베딩 스킴(조각형 선형 인코딩 및 주기적 활성화)을 개발하고 비교한다.
임베딩이 다양한 백본(MLP, ResNet, Transformer)에서 성능을 개선하고 GBDT 친화 벤치마크에서도 향상을 보이는지 입증한다.
적절한 임베딩과 함께 간단한 MLP가 주의 기반 모델과 경쟁할 수 있음을 시연한다

제안 방법

수치 특징의 임베딩을 독립 특성 임베딩 z_i = f_i(x_i^(num))로 형식화한다.
두 가지 임베딩 블록을 제안한다: (a) 특징 구간화 기반의 조각형 선형 인코딩(PLE), (b) 훈련 가능한 프리액티베이션 계수를 가진 주기적 활성화.
빈(bin) 구성 방법을 설명한다: 분위수 기반과 타깃 인식(C4.5에서 영감)
임베딩 위에 선택적으로 미분 가능 계층(예: 선형 계층, ReLU)을 제공한다.
백본에 맞춰 임베딩을 MLP 유사 및 Transformer에 맞춰 조정한다; 백본에 따라 임베딩을 연결(concatenate)하거나 그대로 전달한다.
다양한 백본(MLP, ResNet, Transformer)과 폭넓은 임베딩 세트를 사용해 11개 데이터셋에서 정확도/RMSE를 평가한다

실험 결과

연구 질문

RQ1수치 특징에 대한 표현력 있는 임베딩이 기존의 선형 블록을 넘어 표 형식 DL의 성능을 향상시키는가?
RQ2수치 특징 임베딩의 이점이 Transformer 유사 모델에 국한되나, 백본 간 보편적인가?
RQ3어떤 임베딩 스킴(PLE 정량 기반, PLE 대상 인식, 주기적 또는 이들의 조합)이 데이터셋 전반에서 최상의 성능을 내는가?
RQ4적절한 임베딩을 가진 간단한 MLP가 최첨단 주의 기반 모델 및 GBDT 벤치마크와 경쟁할 수 있는가?

주요 결과

Backbone	Embedding	GE ↑	CH ↑	CA ↓	HO ↓	AD ↑	OT ↑	HI ↑	FB ↓	SA ↑	CO ↑	MI ↓	Avg. Rank
CatBoost	N/A	0.692	0.861	0.430	3.093	0.873	0.825	0.727	5.226	0.924	0.967	0.741	3.6 ± 2.9
XGBoost	N/A	0.683	0.859	0.434	3.152	0.875	0.827	0.726	5.338	0.919	0.969	0.742	4.6 ± 2.7
MLP	-	0.665	0.856	0.486	3.109	0.856	0.822	0.727	5.616	0.913	0.968	0.746	8.5 ± 2.6
MLP-LR	-	0.679	0.861	0.463	3.012	0.859	0.826	0.731	5.477	0.924	0.972	0.744	5.5 ± 2.7
MLP-Q-LR	-	0.682	0.859	0.433	3.080	0.867	0.818	0.724	5.471	0.924	0.974	0.745	5.1 ± 1.9
MLP-T-LR	-	0.690	0.857	0.425	3.143	0.868	0.818	0.726	5.471	0.924	0.975	0.744	4.4 ± 2.2
MLP-PLR	-	0.700	0.858	0.453	2.975	0.874	0.830	0.734	5.388	0.924	0.975	0.743	3.0 ± 2.4
ResNet	-	0.690	0.861	0.483	3.081	0.856	0.821	0.734	5.482	0.918	0.968	0.745	6.7 ± 3.3
ResNet-LR	-	0.672	0.862	0.450	2.992	0.859	0.822	0.733	5.415	0.923	0.971	0.743	5.6 ± 2.7
ResNet-Q-LR	-	0.674	0.859	0.427	3.066	0.868	0.815	0.729	5.309	0.923	0.976	0.746	4.7 ± 2.0
ResNet-T-LR	-	0.683	0.862	0.425	3.030	0.872	0.822	0.731	5.471	0.923	0.975	0.744	4.1 ± 1.9
Transformer-L	FT-Transformer	0.668	0.861	0.455	3.188	0.860	0.824	0.727	5.434	0.924	0.973	0.743	5.9 ± 2.2
Transformer-LR	-	0.666	0.861	0.446	3.193	0.861	0.824	0.733	5.430	0.924	0.973	0.743	5.2 ± 2.2
Transformer-Q-LR	-	0.690	0.857	0.425	3.143	0.868	0.818	0.726	5.471	0.924	0.975	0.744	4.4 ± 2.2
Transformer-T-LR	-	0.686	0.862	0.423	3.149	0.871	0.823	0.733	5.515	0.924	0.976	0.744	3.7 ± 2.2
Transformer-PLR	-	0.686	0.864	0.449	3.091	0.873	0.823	0.734	5.581	0.924	0.975	0.743	3.9 ± 2.5
MLP-P	-	0.631	0.860	0.489	3.129	0.869	0.807	0.723	5.845	0.923	0.968	0.747	-

수치 특징 임베딩은 MLP, ResNet, Transformer 백본에서 눈에 띄는 성능 향상을 가져온다.
조각형 선형 인코딩(PLE)은 일반적으로 성능을 개선하며, 분위수 기반 및 타깃 인식 구분이 강한 성능을 제공한다.
주기적 활성화는 효과적이며, 추가 미분 가능 계층과 함께일 때 일반 주기 임베딩보다 종종 더 우수하게 작동한다.
적절한 임베딩을 갖춘 MLP가 여러 데이터셋에서 Transformer 기반 모델에 맞서거나 능가할 수 있어 DL-GBDT 격차의 일부를 좁힌다.
여러 공개 벤치마크에서 DL 모델이 임베딩과 함께 표 형식 DL 방법 중 최첨단 성능에 도달하고 GBDT 성능에 다가간다.
임베딩 오버헤드는 파라미터 수를 증가시키지만 특정 백본에서 더 빠른 학습으로 상쇄될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.