[논문 리뷰] Feature Selection: A Data Perspective
데이터 중심 관점에서 특징 선택을 재조명하는 포괄적 설문으로, 데이터 유형(전통적, 구조화된, 이질적, 스트리밍)별 및 알고리즘적 접근 방식(유사도 기반, 정보 이론적, 희소 학습, 통계)의 분류.
Feature selection, as a data preprocessing strategy, has been proven to be effective and efficient in preparing data (especially high-dimensional data) for various data mining and machine learning problems. The objectives of feature selection include: building simpler and more comprehensible models, improving data mining performance, and preparing clean, understandable data. The recent proliferation of big data has presented some substantial challenges and opportunities to feature selection. In this survey, we provide a comprehensive and structured overview of recent advances in feature selection research. Motivated by current challenges and opportunities in the era of big data, we revisit feature selection research from a data perspective and review representative feature selection algorithms for conventional data, structured data, heterogeneous data and streaming data. Methodologically, to emphasize the differences and similarities of most existing feature selection algorithms for conventional data, we categorize them into four main groups: similarity based, information theoretical based, sparse learning based and statistical based methods. To facilitate and promote the research in this community, we also present an open-source feature selection repository that consists of most of the popular feature selection algorithms (\url{http://featureselection.asu.edu/}). Also, we use it as an example to show how to evaluate feature selection algorithms. At the end of the survey, we present a discussion about some open problems and challenges that require more attention in future research.
연구 동기 및 목표
- 고차원 데이터에서 해석 가능성, 효율성 및 일반화성을 향상시키기 위한 중요한 전처리 단계로서 특징 선택을 동기 부여한다.
- 데이터 중심 관점에서 전통적, 구조화된, 이질적 및 스트리밍 데이터를 포함하는 특징 선택 알고리즘의 구조적 분류 체계를 제공한다.
- 빅데이터 시대의 도전과 기회를 식별하고 미래 연구를 위한 개방 문제를 개요한다.
제안 방법
- 전통 데이터에 대해 특징 선택 방법을 네 가지 주요 그룹으로 분류: 유사도 기반, 정보 이론적, 희소 학습 기반, 및 통계 기반.
- 구조화된 특징(그룹, 트리, 그래프) 및 이질적 데이터(연결된, 다원 소스, 다중 뷰) 및 스트리밍 데이터에 대한 특징 선택으로 확장.
- 오픈 소스 저장소 scikit-feature를 소개하고 이를 사용한 평가 관행을 시연.
- 하이브리드, 딥 러닝 기반, 재구성 기반 방법을 보조적 접근으로 논의.
실험 결과
연구 질문
- RQ1데이터 유형 전반에서 특징을 평가하고 선택하는 핵심 카테고리와 기준은 무엇인가?
- RQ2전통적, 구조화된, 이질적, 및 스트리밍 데이터에 어떻게 특징 선택 방법이 적응하는가?
- RQ3빅 데이터 맥락에서 특징 선택의 열린 도전과 향후 방향은 무엇인가?
주요 결과
- 데이터 관점과 선택 전략(래퍼, 필터, 임베디드)으로 특징 선택을 분류할 수 있으며, 래퍼는 계산 비용이 많이 든다.
- 유사도 기반 방법은 데이터 매니폴드 구조를 보존하고 지도 학습, 비지도 학습 및 준지도 학습 설정에 적용될 수 있다.
- 정보 이론적 및 희소 학습 기반 방법은 관련성을 극대화하고 중복을 최소화하거나 희소성을 부여하는 기준을 제공한다.
- 구조화된 및 이질적 데이터는 그룹, 트리, 그래프 구조 또는 다중 데이터 소스를 활용하는 특수한 알고리즘이 필요하다.
- 스트리밍 특징 선택은 데이터와 피처가 진화함에 따라 관련 특징을 한 번에 유지 관리하는 동적 유지 관리를 가능하게 한다.
- 재현성과 비교를 촉진하기 위해 오픈 소스 특징 선택 저장소와 평가 프레임워크가 제공된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.