Skip to main content
QUICK REVIEW

[논문 리뷰] One button machine for automating feature engineering in relational databases

Hoang Thanh Lam, Johann-Michael Thiebaut|arXiv (Cornell University)|2017. 06. 01.
Data Mining Algorithms and Applications참고 문헌 7인용 수 61
한 줄 요약

OneBM은 엔터티 그래프를 순회하고 조인된 데이터를 구조화된 특징으로 변환하며 이를 모델링에 사용하기 위해 선택함으로써 관계형 데이터베이스에서 특징을 자동으로 발견하며, 이전의 최첨단 방법과 비교하여 Kaggle 대회에서 경쟁력 있는 성과를 거두거나 때로는 우수한 성과를 보인다.

ABSTRACT

Feature engineering is one of the most important and time consuming tasks in predictive analytics projects. It involves understanding domain knowledge and data exploration to discover relevant hand-crafted features from raw data. In this paper, we introduce a system called One Button Machine, or OneBM for short, which automates feature discovery in relational databases. OneBM automatically performs a key activity of data scientists, namely, joining of database tables and applying advanced data transformations to extract useful features from data. We validated OneBM in Kaggle competitions in which OneBM achieved performance as good as top 16% to 24% data scientists in three Kaggle competitions. More importantly, OneBM outperformed the state-of-the-art system in a Kaggle competition in terms of prediction accuracy and ranking on Kaggle leaderboard. The results show that OneBM can be useful for both data scientists and non-experts. It helps data scientists reduce data exploration time allowing them to try and error many ideas in short time. On the other hand, it enables non-experts, who are not familiar with data science, to quickly extract value from their data with a little effort, time and cost.

연구 동기 및 목표

  • 관계형 데이터베이스에서 특징 엔지니어링을 자동화하여 수작업 데이터 탐색과 특징 제작을 줄인다.
  • 여러 개의 조인된 테이블로부터 다양한 데이터 타입을 처리하며 비정형 데이터도 포함한다.
  • 도메인 특화 특징을 위한 특징 추출기를 플러그인으로 확장 가능한 프레임워크를 제공한다.
  • 대규모 실제 데이터셋과 Kaggle 대회에서의 효과성과 확장성을 입증한다.

제안 방법

  • 데이터베이스 테이블의 엔터티 그래프를 구성하고 사용자가 정의한 MaxDepth까지 깊이 우선 경로 열거를 수행한다.
  • 조인 경로를 따라 데이터를 수집하고 각 엔티티에 대해 결과를 관계 트리로 표현한다.
  • 경로 속성에 기반한 수집 데이터의 데이터 타입을 식별하고 적절한 변환(숫자, 범주형, 텍스트, 시계열 등)을 적용한다.
  • 일련의 기본 특징 변환을 적용하고 도메인 특화 특징에 대해 플러그인 확장을 허용한다.
  • 중복 제거 및 드리프트 탐색을 포함한 특징 선택을 수행하되 확장은 가능하며(NP-hard 문제)
  • 캐싱을 통한 깊이 우선 탐색, 표준 경로 형식에 의한 중복 경로 제거, MAX-JOINED-SIZE를 기반으로 한 동적 샘플링 등 효율성 전략을 구현한다.

실험 결과

연구 질문

  • RQ1다수의 테이블과 복잡한 조인이 있는 관계형 데이터베이스에서 특징 엔지니어링을 어떻게 자동화할 수 있는가?
  • RQ2조인된 관계형 데이터에서 추출된 특징에 어떤 데이터 타입과 변환이 적합한가, 비정형 데이터를 포함하여?
  • RQ3OneBM은 대규모 데이터셋으로 확장 가능한가 그리고 DSM 등 기존 시스템과 비교하여 성능은 어떤가?
  • RQ4수작업 특징 엔지니어링 없이 실제 Kaggle 대회에서 예측 성능을 어느 정도까지 개선할 수 있는가?

주요 결과

  • OneBM은 Kaggle 데이터셋에서 데이터 과학자와 대등하거나 초과하는 성과를 여러 대회에서 달성하며 경쟁력 있는 리더보드 성과를 보인다.
  • KDD Cup 2014에서 OneBM은 tuning 없이 최첨단 DSM보다 앞서며 프라이빗 리더보드에서 상위 17%에 랭크했다.
  • Grupo Bimbo 재고 예측 과제에서 OneBM은 최근 수요 및 제품 유형과 같은 의미 있는 특징을 식별했으며, 최상위 특징들이 타깃과 상당한 상관관계를 보였다.
  • Outbrain 클릭 예측 실험은 8개 테이블에 걸친 유용한 특징 발견을 시연했고 geo-location 및 ad_id를 포함한 최상위 예측기들과 함께 경쟁력 있는 점수를 냈다.
  • OneBM은 Spark 기반 구현을 사용해 대형 데이터셋(예: 100 GB, 119 million training examples)으로 확장 가능함

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.