QUICK REVIEW

[논문 리뷰] Guided Random Forest in the RRF Package

Houtao Deng|arXiv (Cornell University)|2013. 06. 02.

Gene expression and cancer classification참고 문헌 6인용 수 61

한 줄 요약

이 논문은 표준 랜덤 포레스트에서 유도된 중요도 점수를 사용해 트리 구축을 안내하는 병렬 처리가 가능한 특성 선택 방법인 가이드드 랜덤 포레스트(GRF)를 제안한다. 이는 특성 수를 크게 줄이며 분류 정확도를 햖을 수 있다. 10개의 고차원 유전자 데이터 세트에서 GRF-RF(그리드 랜덤 포레스트에서 선택된 특성에 대한 랜덤 포레스트)는 9개 데이터 세트에서 전체 랜덤 포레스트를 능가했으며, 그 중 7개는 0.05 수준에서 통계적으로 유의미한 향상이 있었다.

ABSTRACT

Random Forest (RF) is a powerful supervised learner and has been popularly used in many applications such as bioinformatics. In this work we propose the guided random forest (GRF) for feature selection. Similar to a feature selection method called guided regularized random forest (GRRF), GRF is built using the importance scores from an ordinary RF. However, the trees in GRRF are built sequentially, are highly correlated and do not allow for parallel computing, while the trees in GRF are built independently and can be implemented in parallel. Experiments on 10 high-dimensional gene data sets show that, with a fixed parameter value (without tuning the parameter), RF applied to features selected by GRF outperforms RF applied to all features on 9 data sets and 7 of them have significant differences at the 0.05 level. Therefore, both accuracy and interpretability are significantly improved. GRF selects more features than GRRF, however, leads to better classification accuracy. Note in this work the guided random forest is guided by the importance scores from an ordinary random forest, however, it can also be guided by other methods such as human insights (by specifying $λ_i$). GRF can be used in "RRF" v1.4 (and later versions), a package that also includes the regularized random forest methods.

연구 동기 및 목표

유전자 발현 데이터의 고차원 특성 공간 문제를 다루기 위해, 표준 랜덤 포레스트가 해석 가능성과 계산 효율성에서 어려움을 겪는 점을 해결하기 위해.
표준 랜덤 포레스트에서 유도된 특성 중요도 점수를 활용해 트리 구축을 안내하는 특성 선택 방법을 개발하여 모델 정확도와 희박성(스퍼스티)을 향상시키기 위해.
가이드드 정규화 랜덤 포레스트(GRRF)에서 트리 구축을 순차적으로 수행함으로써 병렬 처리가 제한되고 트리 간 상관관계가 높아지는 한계를 극복하기 위해.
특성 관련성을 유지하면서 중복을 줄이기 위해 중요도 가중 분할 기준을 사용하면서도 트리를 병렬적으로 계산할 수 있도록 하기 위해.

제안 방법

GRF는 각 노드에서 기존의 지니 중요도 기여도를 표준 랜덤 포레스트에서 도출된 정규화된 중요도 점수로 가중한다: $ gain_G(X_i) = \lambda_i \cdot gain(X_i) $.
가중 요소 $ \lambda_i $ 는 $ \lambda_i = 1 - \gamma + \gamma \cdot \frac{Imp_i}{Imp^*} $ 로 정의되며, 여기서 $ \gamma \in [0,1] $ 는 중요도 점수의 영향력을 조절한다.
본 연구에서는 $ \gamma = 1 $ 을 사용하여 $ \lambda_i = \frac{Imp_i}{Imp^*} $ 가 되게 하여, 낮은 중요도 특성에 더 강한 페널티를 가한다.
GRF의 트리는 상호 독립적으로 구축되므로 GRRF와 달리 완전한 병렬 처리가 가능하며, GRRF는 순차적으로 트리를 구축해 높은 상관관계를 유발한다.
특성 선택은 GRF 앙상블 내에서 가장 자주 사용된 특성들을 식별함으로써 수행된다.
최종 모델은 GRF가 선택한 특성 부분집합에 대해 표준 랜덤 포레스트를 적용하며, 이를 GRF-RF로 지칭한다.

실험 결과

연구 질문

RQ1랜덤 포레스트 중요도 점수를 기반으로 한 특성 선택 방법이 특성 차원을 줄이며 분류 정확도를 향상시킬 수 있는가?
RQ2GRF와 같이 병렬 처리가 가능한 특성 선택 접근 방식이 GRRF와 같은 순차적 방법보다 정확도와 계산 효율성 측면에서 뛰어나게 되는가?
RQ3GRF-RF(그리드 랜덤 포레스트에서 선택된 특성에 대한 랜덤 포레스트)는 고차원 유전자 발현 데이터에 적용되었을 때 표준 랜덤 포레스트보다 더 정확한가?
RQ4정규화된 중요도 점수를 페널티 항으로 사용할 경우 특성 선택과 모델 성능에 어떤 영향을 미치는가?

주요 결과

GRF-RF는 10개의 고차원 유전자 데이터 세트 중 9개에서 표준 랜덤 포레스트를 뛰어넘었으며, 그 중 7개는 0.05 수준에서 통계적으로 유의미한 향상이 있었다.
평균적으로, GRF는 시뮬레이션 데이터 세트에서 500개의 특성 중 단 196개만 선택했고, 표준 RF는 모든 500개를 사용했으며, GRF-RF는 전체 RF의 54건보다 낮은 34건의 오분류를 기록했다.
모든 데이터 세트에서 GRF는 GRRF보다 적은 특성을 사용했고, GRF-RF는 10개의 모든 데이터 세트에서 오차율 측면에서 GRRF와 GRRF-RF를 항상 앞섰다.
GRF-RF는 GRF 자체보다 낮은 오차율을 기록했으며, 이는 GRF에서 선택된 특성에 표준 랜덤 포레스트를 적용하는 것이 GRF를 단독 분류기로 사용하는 것보다 더 높은 성능을 낸다는 것을 시사한다.
GRF가 선택한 특성 수는 표준 RF보다 상당히 적었으며, 대부분의 데이터 세트에서 중앙값 수준의 특성 사용 빈도가 절반 이하로 감소하여 모델의 해석 가능성 향상에 기여했다.
매개변수 선택에 대해 강건한 성능을 보였으며, $ \gamma = 1 $ (낮은 중요도 특성에 최대 페널티)를 사용했을 때도 튜닝 없이 우수한 결과를 얻었기 때문에 실세계 응용에서 실용적인 유용성을 지닌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.