Skip to main content
QUICK REVIEW

[논문 리뷰] Rethinking Data Augmentation for Tabular Data in Deep Learning

Soma Onishi, Shoya Meguro|arXiv (Cornell University)|2023. 05. 17.
Domain Adaptation and Few-Shot Learning인용 수 8
한 줄 요약

본 논문은 Transformer 기반 표 형태(tabular) 모델을 위한 새로운 표 데이터 증강 기법인 Mask Token Replacement (MTR)을 제안하고, 감독학습 및 자기지도 학습 설정 모두에서 13개 데이터셋에 걸쳐 기존 증강법과 경쟁력을 보이며, MTR이 가장 효과적인 상황을 분석한다.

ABSTRACT

Tabular data is the most widely used data format in machine learning (ML). While tree-based methods outperform DL-based methods in supervised learning, recent literature reports that self-supervised learning with Transformer-based models outperforms tree-based methods. In the existing literature on self-supervised learning for tabular data, contrastive learning is the predominant method. In contrastive learning, data augmentation is important to generate different views. However, data augmentation for tabular data has been difficult due to the unique structure and high complexity of tabular data. In addition, three main components are proposed together in existing methods: model structure, self-supervised learning methods, and data augmentation. Therefore, previous works have compared the performance without comprehensively considering these components, and it is not clear how each component affects the actual performance. In this study, we focus on data augmentation to address these issues. We propose a novel data augmentation method, $ extbf{M}$ask $ extbf{T}$oken $ extbf{R}$eplacement ($ exttt{MTR}$), which replaces the mask token with a portion of each tokenized column; $ exttt{MTR}$ takes advantage of the properties of Transformer, which is becoming the predominant DL-based architecture for tabular data, to perform data augmentation for each column embedding. Through experiments with 13 diverse public datasets in both supervised and self-supervised learning scenarios, we show that $ exttt{MTR}$ achieves competitive performance against existing data augmentation methods and improves model performance. In addition, we discuss specific scenarios in which $ exttt{MTR}$ is most effective and identify the scope of its application. The code is available at https://github.com/somaonishi/MTR/.

연구 동기 및 목표

  • 표 형식 데이터에 대한 다양한 데이터 증강 기법의 효과를 Transformer 기반 모델 사용 시 평가한다.
  • 열(column) 단위 임베딩에 맞춘 새로운 증강 기법인 Mask Token Replacement (MTR)을 도입한다.
  • 감독학습 및 자기지도 학습 설정에서 MTR을 기존 증강법과 다양한 데이터셋에서 비교한다.
  • MTR이 가장 큰 이점을 제공하는 시나리오와 데이터셋 특성 및 한계를 식별한다.

제안 방법

  • 토큰화기와 Transformer의 [cls] 토큰을 통해 표 입력을 열 임베딩의 시퀀스로 표현한다.
  • Bernoulli 마스크 p_m에 따라 임베딩 시퀀의 일부를 학습 가능한 [mask] 토큰으로 대체하여 MTR을 도입한다.
  • 수치형에 대해 Quantile 변환, 범주형에 대해 Ordinal 인코딩 등의 표준 데이터 전처리를 사용하여 FTTransformer를 기본 모델로 학습 및 평가한다.
  • 감독 학습에서 w/o DA, Manifold Mixup, Cutmix, SCARF, HiddenMix와의 비교를 수행하고, 자기지도 학습(대비학습) 설정에서도 비교한다.
  • 감독 학습 실험에서는 50% 증강 확률을 적용하고, 자기지도 실험에서는 두 뷰와 NT-Xent 손실을 사용한 대비 사전 학습을 수행한다.

실험 결과

연구 질문

  • RQ1MTR이 데이터셋 전반에 걸친 기존 표 데이터 증강 방법에 비해 성능을 개선하는가?
  • RQ2데이터셋의 특성(특징 중복성이나 열 의존성 등)과 같은 시나리오에서 MTR이 특히 유리하거나 해로울 수 있는가?
  • RQ3표 데이터에 대해 감독 학습 vs. 자기지도(대비) 학습 설정에서 MTR의 성능은 어떠한가?
  • RQ4Tokenzier의 편향에 대한 배치 위치나 마스킹 확률 등의 실용적 고려사항 및 차폐에 따른 효과 차이가 어떤가?

주요 결과

  • MTR은 기존 증강법과의 성능 차이가 있으며, 13개 데이터셋에서 감독 학습 실험의 평균 순위에서 최적의 결과를 보인다.
  • MTR은 높은 특성 수를 가진 데이터셋(예: PH)에서 강한 성능을 보이며, 일부 베이스라인에 비해 더 높은 마스킹 확률에 견고하다.
  • SCARF와 HiddenMix는 특히 다중 클래스 레이블이 있거나 라벨 혼합이 더 큰 다양성을 제공하는 데이터셋에서 MTR보다 더 나은 성능을 보일 수 있다.
  • 자기지도 학습에서 MTR은 보통 최상의 평균 순위를 보이나, SCARF와 HiddenMix도 여러 데이터셋에서 강한 성능을 보인다.
  • 적용 맥락에 따른 차별점은 Tokenizer의 편향 뒤에서의 적용이 앞보다도 효과적일 수 있으며, 구현 비용이 더 낮다는 점에서의 ablation 결과가 제시된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.