Skip to main content
QUICK REVIEW

[논문 리뷰] Multivariate feature ranking of gene expression data

Fernando Jiménez, Gracia Sánchez|arXiv (Cornell University)|2021. 11. 03.
Gene expression and cancer classification인용 수 2
한 줄 요약

이 논문은 고차원 유전자 발현 데이터를 위한 두 가지 새로운 다변량 특징 순위 매기기 방법—쌍별 상관관계와 쌍별 일관성—을 제안한다. 이 방법들은 각 유전자가 다른 모든 유전자들과 평균적으로 얼마나 상관되거나 일관성 있는지를 평가하여 특징 중요도를 산정한다. 이 방법들은 난소암, 뇌 조직, 뇌 연령 분류 작업에서 단변량 및 다변량 최신 기술에 비해 뚜렷이 뛰어난 성능을 보였다.

ABSTRACT

Gene expression datasets are usually of high dimensionality and therefore require efficient and effective methods for identifying the relative importance of their attributes. Due to the huge size of the search space of the possible solutions, the attribute subset evaluation feature selection methods tend to be not applicable, so in these scenarios feature ranking methods are used. Most of the feature ranking methods described in the literature are univariate methods, so they do not detect interactions between factors. In this paper we propose two new multivariate feature ranking methods based on pairwise correlation and pairwise consistency, which we have applied in three gene expression classification problems. We statistically prove that the proposed methods outperform the state of the art feature ranking methods Clustering Variation, Chi Squared, Correlation, Information Gain, ReliefF and Significance, as well as feature selection methods of attribute subset evaluation based on correlation and consistency with multi-objective evolutionary search strategy.

연구 동기 및 목표

  • 고차원 유전자 발현 데이터에서 유전자 간 상호작용을 포착하지 못하는 단변량 특징 순위 매기기 방법의 한계를 해결한다.
  • 유전자 간 쌍별 관계를 고려한 다변량 특징 순위 매기기 기법을 개발하여 특징 중요도 추정을 향상시킨다.
  • 실제 유전자 발현 분류 문제에서 기존의 단변량 및 다변량 특징 순위 매기기 및 부분집합 평가 기법과 제안된 방법을 비교 평가한다.
  • 다변량 순위 매기기 방법이 고차원 환경에서 강력한 탐색 전략을 가진 고도로 발전된 특성 부분집합 평가 방법을 능가할 수 있음을 입증한다.
  • 대규모 유전자 발현 데이터 세트에 대해 비용이 많이 들는 웨이퍼 및 부분집합 평가 방법의 효율적인 대체 방법을 제공한다.

제안 방법

  • 각 유전자와 다른 모든 유전자 간 평균 상관관계를 계산하는 다변량 특징 순위 매기기 방법인 쌍별 상관관계를 제안한다.
  • 각 유전자와 다른 모든 유전자 간 평균 일관성(순위 일致성)을 계산하는 다변량 방법인 쌍별 일관성(Consistency)을 도입한다.
  • 두 방법 모두 필터 기반 특징 순위 매기기 기법으로 활용하여, 쌍별 상호작용 기반으로 각 유전자에 전역 중요도 점수를 할당한다.
  • 정확도를 주요 평가 지표로 사용하여, 10겹 교차검증을 10회 반복하고 8종의 다양한 분류 알고리즘을 적용하여 성능을 평가한다.
  • 다양한 단변량 및 다변량 특징 순위 매기기 방법(예: 카이제곱, 정보량, ReliefF)과 다목적 진화 알고리즘을 사용한 특성 부분집합 평가 방법 2종과의 성능 비교를 수행한다.
  • 성능 차이의 유의미성을 검증하기 위해 통계적 유의성 검정(예: 비모수적 검정)을 수행하고, 모든 실험에서 승리/패배 순위를 산정한다.

실험 결과

연구 질문

  • RQ1쌍별 유전자 상호작용을 고려하는 다변량 특징 순위 매기기 방법이 유전자 발현 분류에서 단변량 특징 순위 매기기 방법보다 뛰어나게 성능을 낼 수 있는가?
  • RQ2제안된 쌍별 상관관계 및 쌍별 일관성 방법이 최신 기술의 단변량 및 다변량 특징 순위 매기기 기법보다 더 뛰어난 분류 성능을 달성할 수 있는가?
  • RQ3다변량 특징 순위 매기기 방법이 다목적 진화 알고리즘을 사용한 복잡한 특성 부분집합 평가 방법보다도 고차원 유전자 발현 데이터에서 뛰어난 성능을 낼 수 있는가?
  • RQ4다양한 유전자 발현 데이터 세트와 분류 알고리즘 간에 제안된 방법의 통계적 유의성과 일관성은 어떻게 비교되는가?
  • RQ5특징 순위 매기기의 계산 효율성이 매우 고차원 데이터 세트에서 더 복잡한 부분집합 평가 방법을 능가할 수 있는가?

주요 결과

  • 쌍별 상관관계와 쌍별 일관성은 각각 세 가지 유전자 발현 분류 문제(난소암 RNA-Seq, 뇌 조직 GTEx RNA, 뇌 연령 GTEx RNA)에서 1위와 2위를 차지했으며, 총 52번의 승리를 기록했다.
  • 제안된 다변량 방법들은 단변량 방법들인 상관계수, 카이제곱, 정보량, ReliefF보다 뚜렷이 뛰어난 성능을 보였으며, 쌍별 상관관계는 11번, 쌍별 일관성은 26번의 승리를 거두었다.
  • ReliefF는 다변량 방법임에도 불구하고 카이제곱 및 유의성 검정과 같은 단변량 방법보다 성능이 열 劣하므로, 고차원 유전자 발현 데이터에 대한 적용 가능성에 한계가 있음을 시사한다.
  • 다변량 순위 매기기 방법들은 다목적 진화 알고리즘을 사용한 상관관계 및 일관성 기반 특성 부분집합 평가 방법을 능가했으며, 이는 후자의 고도로 발전된 탐색 전략에도 불구하고 성능이 열 劣함을 의미한다.
  • 유전자 발현 데이터 세트의 탐색 공간은 천문학적 크기—예를 들어 난소암 RNA-Seq 데이터 세트에서는 약 2.8e+6180개의 후보 부분집합이 존재—로, 부분집합 평가 방법은 계산적으로 비현실적이 된다.
  • 통계적 검정을 통해 제안된 방법과 기준 방법 간의 성능 차이가 통계적으로 유의미하다는 점을 확인하였으며, 이는 결과의 강건성을 강화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.