QUICK REVIEW

[論文レビュー] Multivariate feature ranking of gene expression data

Fernando Jiménez, Gracia Sánchez|arXiv (Cornell University)|Nov 3, 2021

Gene expression and cancer classification被引用数 2

ひとこと要約

本論文は、高次元の遺伝子発現データに対して、それぞれの遺伝子が他のすべての遺伝子と平均的に相関しているか、一貫性を持っているかを評価する2つの新しい多次元特徴順序付け手法—ペアワイズ相関とペアワイズ一貫性—を提案する。これらの手法は、がん、脳組織、脳年齢分類タスクにおいて、univariateおよび多次元の最先端特徴順序付けおよびサブセット評価手法を著しく上回る性能を示した。

ABSTRACT

Gene expression datasets are usually of high dimensionality and therefore require efficient and effective methods for identifying the relative importance of their attributes. Due to the huge size of the search space of the possible solutions, the attribute subset evaluation feature selection methods tend to be not applicable, so in these scenarios feature ranking methods are used. Most of the feature ranking methods described in the literature are univariate methods, so they do not detect interactions between factors. In this paper we propose two new multivariate feature ranking methods based on pairwise correlation and pairwise consistency, which we have applied in three gene expression classification problems. We statistically prove that the proposed methods outperform the state of the art feature ranking methods Clustering Variation, Chi Squared, Correlation, Information Gain, ReliefF and Significance, as well as feature selection methods of attribute subset evaluation based on correlation and consistency with multi-objective evolutionary search strategy.

研究の動機と目的

高次元の遺伝子発現データにおける遺伝子間相互作用を捉えることができないunivariate特徴順序付け手法の限界を解決すること。
遺伝子間のペアワイズ関係を考慮する多次元特徴順序付け技術を開発し、特徴の重要度推定を改善すること。
実世界の遺伝子発現分類問題において、確立されたunivariateおよび多次元特徴順序付けおよびサブセット評価手法と比較して、提案手法の性能を評価すること。
多次元順序付けが、高度な探索戦略を備えた複雑な属性サブセット評価手法でさえも、高次元設定において優れていることを示すこと。
大規模な遺伝子発現データセットに対して、計算コストの高いwrapperおよびサブセット評価手法の効率的で実用的な代替手段を提供すること。

提案手法

各遺伝子と他のすべての遺伝子との平均相関を計算する多次元特徴順序付け手法であるペアワイズ相関を提案する。
各遺伝子と他のすべての遺伝子との平均的一致性（順位の一致度）を計算する多次元手法であるペアワイズ一貫性を導入する。
両手法をフィルタベースの特徴順序付け技術として適用し、ペアワイズ相互作用に基づいて各遺伝子にグローバルな重要度スコアを割り当てる。
正解率を主な指標として用い、10-fold交差検証を10回繰り返し、8種類の多様な分類アルゴリズムを用いて性能を評価する。
カイ二乗検定、情報ゲイン、ReliefFなどの6種類のunivariateおよび多次元特徴順序付け手法と、多目的進化的アルゴリズムを用いた2種類の属性サブセット評価手法とを比較する。
性能差の統計的有意性を検証するための統計的検定（例：非パラメトリック検定）を実施し、すべての実験における勝利/敗北順位を算出する。

実験結果

リサーチクエスチョン

RQ1ペアワイズ遺伝子相互作用を考慮する多次元特徴順序付け手法は、遺伝子発現分類においてunivariate特徴順序付け手法を上回ることができるか？
RQ2提案されたペアワイズ相関およびペアワイズ一貫性手法は、最先端のunivariateおよび多次元特徴順序付け技術を上回る分類性能を達成できるか？
RQ3相関および一貫性に基づく多目的進化的探索戦略を用いた複雑な属性サブセット評価手法ですら、高次元の遺伝子発現データにおいて多次元順序付け手法が上回ることができるか？
RQ4複数の遺伝子発現データセットおよび分類アルゴリズムにおいて、提案手法の統計的有意性と一貫性はどのように比較されるか？
RQ5特徴順序付けの計算効率は、極めて高次元のデータセットにおいて、より複雑なサブセット評価手法を上回るのに十分か？

主な発見

ペアワイズ相関とペアワイズ一貫性は、がんRNA-Seq、脳組織GTEx RNA、脳年齢GTEx RNAの3つの遺伝子発現分類問題において、それぞれ1位および2位を獲得し、すべての実験で合計26勝ずつを記録した。
提案された多次元手法は、相関、カイ二乗検定、情報ゲイン、ReliefFといったunivariate手法を著しく上回り、ペアワイズ相関は11勝、ペアワイズ一貫性は26勝を達成した。
ReliefFでさえも、univariate手法のカイ二乗検定や有意性検定に劣っており、高次元の遺伝子発現データへの適用における限界を示している。
多目的進化的アルゴリズム（MOEA）を用いた相関および一貫性に基づく属性サブセット評価手法でさえも、提案された多次元順序付け手法に劣っている。
遺伝子発現データセットの探索空間は天文学的な大きさであり、たとえばがんRNA-Seqデータセットでは2.8e+6180個の候補サブセットが存在するため、サブセット評価手法は計算的に非現実的である。
統計的検定により、提案手法とベースラインとの間の性能差が統計的に有意であることが確認され、結果の堅牢性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。