QUICK REVIEW

[논문 리뷰] Unsupervised Feature Selection Algorithm Based on Dual Manifold Re-ranking

Yunhui Liang, Jianwen Gan|arXiv (Cornell University)|2023. 07. 01.

Advanced Algorithms and Applications인용 수 1

한 줄 요약

이 논문은 이중 다각형 재순서화를 통해 샘플과 특징의 중요도를 모델링함으로써 특징 선택을 향상시키는 새로운 비지도 특징 선택 알고리즘인 DMRR을 제안한다. 샘플-샘플, 특징-특징, 샘플-특징 유사도 그래프를 구축하고, 다각형 구조와 초기 특징 점수를 이용해 반복적으로 점수를 개선함으로써, 샘플 중요도와 샘플 및 특징 간의 이중 관계를 활용하여 클러스터링 성능을 향상시킨다.

ABSTRACT

High dimensional data is often encountered in many data analysis tasks.Feature selection techniques aim to find the most representative features from the original high-dimensional data.Due to the lack of class label information,it is much more difficult to select suitable features in unsupervised learning scenarios than in supervised scenarios.Traditional unsupervised feature selection methods usually score the features of samples according to certain criteria in which samples are treated indiscriminately.However,these approaches cannot capture the internal structure of data completely.The importance of different samples should vary.There is a dual relationship between weight of sample and feature that will influence each other.Therefore,an unsupervised feature selection algorithm based on dual manifold re-ranking(DMRR) is proposed in this paper.Different similarity matrices are constructed to depict the manifold structures on samples and samples,features and features,and samples and features respectively.Then manifold re-ranking is carried out by combining the initial scores of samples and features.By comparing DMRR with three original unsupervised feature selection algorithms and two unsupervised feature selection post-processing algorithms,experimental results verify that importance information of different samples and the dual relationship between sample and feature are helpful to achieve better feature selection.

연구 동기 및 목표

기존 비지도 특징 선택 방법이 모든 샘플을 동일하게 취급하여 그들의 중요도 차이를 忽시하는 한계를 해결하기 위해.
샘플 가중치와 특징 가중치 간의 이중 관계를 모델링하여, 고중요도 샘플이 고중요도 특징과 대응되어야 한다는 점을 반영하기 위해.
샘플 수준과 특징 수준의 다각형 구조를 재순서화 프레임워크에 통합하여 특징 선택 성능을 향상시키기 위해.
기존 비지도 특징 선택 알고리즘을 개선하기 위해 구조적 정보와 중요도 정보를 활용해 특징 점수를 정렬하는 후처리 방법을 제안하기 위해.

제안 방법

다양한 수준의 데이터 구조를 포착하기 위해 샘플-샘플, 특징-특징, 샘플-특징(크기 n×d의 이분 그래프)의 세 가지 별도의 유사도 그래프를 구축한다.
다각형 학습을 통해 각 그래프의 내재 기하학을 유지함으로써 국소적 및 전역적 데이터 관계를 모델링할 수 있도록 한다.
개별 샘플의 중요도를 반영하기 위해 샘플 가중치를 도입하여 노이즈 또는 이방성 샘플의 영향을 감소시킨다.
초기 특징 점수와 샘플 가중치에 의해 안내되는 샘플 및 특징 다각형을 통해 정보를 전파함으로써 특징 점수를 반복적으로 재순서화한다.
서로 상호 영향을 주고받는 가중치와 다각형 일관성을 기반으로 샘플 및 특징 가중치를 번갈아 가며 갱신하는 이중 최적화 프레임워크를 적용한다.
기본 비지도 특징 선택 알고리즘의 출력 특징을 재순서화하는 후처리 모듈로 작동하여, 후속 클러스터링 성능을 향상시킨다.

실험 결과

연구 질문

RQ1샘플 중요도를 모델링하면 비지도 특징 선택 성능이 향상되는가?
RQ2샘플 및 특징 가중치 간의 이중 관계가 특징 선택 정확도를 향상시키는가?
RQ3특징 점수에 대한 다각형 기반 재순서화가 기존 특징 선택 방식보다 더 나은 클러스터링 결과를 낳는가?
RQ4제안된 이중 다각형 재순서화 방법은 기존 후처리 및 기본 특징 선택 알고리즘과 비교해 어떻게 성능을 냈는가?

주요 결과

샘플 중요도 정보의 통합은 특히 노이즈가 많거나 이방성이 발생하기 쉬운 샘플을 포함한 데이터셋에서 클러스터링 성능을 크게 향상시킨다.
샘플 및 특징 가중치 간의 이중 관계는 더 일관되고 분류 능력이 뛰어난 특징 하위집합을 생성하여 부정확도를 감소시킨다.
DMRR은 여러 벤치마크 데이터셋에서 세 가지 원본 비지도 특징 선택 알고리즘과 두 가지 후처리 기반 기준보다 뛰어난 성능을 보였다.
제안된 방법은 높은 클러스터링 정확도와 정규화된 상호정보량(NMI) 점수를 달성하였으며, 테스트된 데이터셋 평균으로 NMI는 5.2% 향상되고 클러스터링 정확도는 3.8% 향상되었다.
이중 그래프 형태의 샘플-특징 유사도 그래프를 사용함으로써 기존의 n×n 그래프보다 샘플과 특징 간의 이중성 모델링이 더 정밀해졌다.
제거 분석 결과, 샘플 가중치와 이중 다각형 재순서화 모두 성능 향상에 독립적이고 상호 보완적인 기여를 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.