[논문 리뷰] SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning
SubTab은 특성들을 부분집합으로 나누고, 부분집합에서 재구성하며, 부분집합 표현을 집계하여 표 형식의 데이터 표현을 학습합니다; 표 형식의 MNIST에서 최첨단 성능을 달성하고 여러 실제 데이터 세트에서도 강력한 성능을 보입니다.
Self-supervised learning has been shown to be very effective in learning useful representations, and yet much of the success is achieved in data types such as images, audio, and text. The success is mainly enabled by taking advantage of spatial, temporal, or semantic structure in the data through augmentation. However, such structure may not exist in tabular datasets commonly used in fields such as healthcare, making it difficult to design an effective augmentation method, and hindering a similar progress in tabular data setting. In this paper, we introduce a new framework, Subsetting features of Tabular data (SubTab), that turns the task of learning from tabular data into a multi-view representation learning problem by dividing the input features to multiple subsets. We argue that reconstructing the data from the subset of its features rather than its corrupted version in an autoencoder setting can better capture its underlying latent representation. In this framework, the joint representation can be expressed as the aggregate of latent variables of the subsets at test time, which we refer to as collaborative inference. Our experiments show that the SubTab achieves the state of the art (SOTA) performance of 98.31% on MNIST in tabular setting, on par with CNN-based SOTA models, and surpasses existing baselines on three other real-world datasets by a significant margin.
연구 동기 및 목표
- 표 형식 데이터에서 self-supervised 학습을 위한 구조와 증강 방법의 부족을 동기 및 해결합니다.
- SubTab을 제안하여 다중 특성 뷰 부분집합을 생성하고 부분 특성에서 재구성하여 표현을 학습합니다.
- 협업 추론을 통해 부분 임베딩을 집계하여 공동 표현을 만듭니다.
- subset 기반 집계를 활용하여 누락 특성이 있어도 학습 및 추론이 가능하게 합니다.
- MNIST(표 형식), TCGA, Obesity, Income, Blog 데이터 세트에서 self-supervised 및 supervised 기반선 대비 경험적 이득을 보여줍니다.
제안 방법
- 표 형식 데이터의 특성을 여러 고정된 부분집합으로 나눕니다(특성 가방 스타일).
- 공유 인코더를 사용하여 각 부분집합의 잠재 표현을 얻고 공유 디코더를 사용하여 부분집합 또는 전체 특성 공간을 재구성합니다.
- 대상 투영 간의 대비 손실 및 선택적 거리 손실을 부가적으로 적용하여 부분집합 표현의 투영 간 대조를 수행합니다.
- 테스트 시에 부분집합 표현을 집계(기본은 평균 집계)하여 공동 표현을 형성합니다; 테스트 시 누락된 부분집합은 허용될 수 있습니다.
- 재구성 손실(선택적으로 대조 및 거리 손실 포함)로 robust한 표현을 학습합니다.
- 부분 항목에 대한 노이즈 기반 증강(가우시안, 교환, 0으로 만들기)과 특성 선택 전략(인접 열, 무작위 열, 무작위 특성)을 탐구합니다.
실험 결과
연구 질문
- RQ1다중 특성 부분집합으로 학습하는 것이 표 형식 데이터에 대해 단일 뷰 자동인코더보다 표현 품질을 향상시킬 수 있는가?
- RQ2부분집합에서 전체 데이터를 재구성하는 것이(데이터를 손상시키는 대신) 잠재 구조를 더 잘 포착하는가?
- RQ3테스트 시 부분집합 표현을 집계하는 것이 특히 누락 특성이 있을 때 성능에 어떤 영향을 미치는가?
- RQ4선택적 대조 및 거리 손실의 추가가 다운스트리밍 분류/클러스터링 성능에 미치는 영향은 무엇인가?
- RQ5최고의 성능을 얻기 위한 하이퍼파라미터(부분집합 수, 중첩, 잠재 차원) 조합은 다양한 표 형식 데이터 세트에서 어떤가?
주요 결과
- SubTab은 MNIST를 포함한 다양한 표 형식 데이터 세트와 실제 데이터(TCGA, Obesity, Income, Blog)에서 강력한 성능을 달성합니다.
- 부분집합에서 전체 특성 공간을 재구성하는 것이 손상된 전체 입력을 재구성하는 것보다 더 효과적이며, 인코더가 더 나은 잠재 표현을 찾도록 안내합니다.
- 테스트 시 부분집합 표현의 집계(기본은 평균)가 강력한 공동 표현을 제공하고, 보간 없이도 누락 특성을 허용합니다.
- 교환 노이즈를 추가하고 경우에 따라 거리 및 대비 손실을 추가하면 MNIST 및 다른 데이터 세트의 정확도가 더 향상됩니다.
- Shallow SubTab은 표 형식의 MNIST에서 최첨단에 근접하는 성능에 도달할 수 있으며, 더 깊은 변형은 일부 데이터 세트에서 도움이 되며 SubTab은 여러 self-supervised 기준선을 consistently 상회합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.