[논문 리뷰] Comparing interpretability and explainability for feature selection
이 논문은 해석 가능한 모델(CART, 최적 트리)과 투명한 모델(XGBoost, SHAP) 간의 변수 중요도를 평가하여, 특히 최적 트리와 같은 해석 가능한 모델이 더 정확하게 불필요한 특징을 식별하고 고유 값 수가 많은 특징에 대한 편향이 적다는 것을 발견했다. 반면 XGBoost와 SHAP는 일관되게 중요도를 잘못 할당하여 뛰어난 예측 정확도에도 불구하고 특징 선택 성능이 떨어진다.
A common approach for feature selection is to examine the variable importance scores for a machine learning model, as a way to understand which features are the most relevant for making predictions. Given the significance of feature selection, it is crucial for the calculated importance scores to reflect reality. Falsely overestimating the importance of irrelevant features can lead to false discoveries, while underestimating importance of relevant features may lead us to discard important features, resulting in poor model performance. Additionally, black-box models like XGBoost provide state-of-the art predictive performance, but cannot be easily understood by humans, and thus we rely on variable importance scores or methods for explainability like SHAP to offer insight into their behavior. In this paper, we investigate the performance of variable importance as a feature selection method across various black-box and interpretable machine learning methods. We compare the ability of CART, Optimal Trees, XGBoost and SHAP to correctly identify the relevant subset of variables across a number of experiments. The results show that regardless of whether we use the native variable importance method or SHAP, XGBoost fails to clearly distinguish between relevant and irrelevant features. On the other hand, the interpretable methods are able to correctly and efficiently identify irrelevant features, and thus offer significantly better performance for feature selection.
연구 동기 및 목표
- 다양한 기계학습 모델 간 변수 중요도 점수의 신뢰성을 특징 선택 도구로 평가하는 것.
- XGBoost와 같은 블랙박스 모델과 SHAP와 같은 설명 가능성 방법이 진정한 특징 관련성을 정확히 반영하는지 조사하는 것.
- CART와 최적 트리와 같은 해석 가능한 모델이 고유 값 수가 많은 특징에 대해 선택 편향을 겪는지 평가하는 것.
- 탐욕적 트리의 전역 최적화 대체 방법인 최적 트리가 특징 선택 정확도를 향상시키고 편향을 줄이는지 결정하는 것.
- 다양한 데이터 크기와 특징 분포에서 특징 중요도 식별의 수렴 속도와 정확도를 비교하는 것.
제안 방법
- 선택 편향을 유도하기 위해 고유 값 수가 2, 4, 10, 20인 특징을 포함한 제어된 특징 분포를 가진 합성 데이터셋을 사용한다.
- 정확한 특징 관련성 평가를 위해 정확히 세 개의 특징을 사용해 분할하는 기준 트리를 생성한다.
- CART, 최적 트리, XGBoost, SHAP에서 각각 내장된 방법을 사용해 변수 중요도를 계산하고, 다수의 실행에 걸쳐 중요도 점수를 집계한다.
- 학습 세트 크기가 증가함에 따라 불필요한 특징에 할당된 중요도 비율을 측정하여 성능을 평가한다.
- 특징 선택 성능가 예측 정확도에 손상되지 않도록, 외부 샘플 정확도를 보고한다.
- 선택 편향에 대한 강건성을 테스트하기 위해 균일하게 생성된 특징(편향 없음)과 고유 값 수가 다른 반올림 처리된 특징(편향 있음) 설정에서 실험을 수행한다.
실험 결과
연구 질문
- RQ1XGBoost와 SHAP의 변수 중요도 점수가 합성 데이터셋에서 진정한 특징 관련성을 정확히 반영하는가?
- RQ2고유 값 수가 많은 특징에 대한 선택 편향이 CART와 XGBoost에서 변수 중요도에 어떻게 영향을 미치는가?
- RQ3해석 가능한 모델인 최적 트리가 블랙박스 모델보다 불필요한 특징을 더 잘 식별할 수 있는가?
- RQ4학습 데이터가 증가함에 따라 다양한 모델이 얼마나 빨리 정확한 변수 중요도 할당에 수렴하는가?
- RQ5최적 트리에서의 전역 최적화가 탐욕적 CART보다 선택 편향을 줄이는가?
주요 결과
- 최적 트리(OCT)는 작은 표본 크기에서도 항상 거의 0에 가까운 중요도를 불필요한 특징에 할당하며, 다른 모델보다 빠르게 수렴한다.
- XGBoost와 SHAP는 특히 고노이즈 환경에서 관련 특징과 불필요한 특징을 구분하지 못하고, 불필요한 특징에 상당한 중요도를 할당한다.
- CART는 편향이 있는 설정에서 변동성이 증가하고 수렴 속도가 느려져 고유 값 수에 기반한 선택 편향에 취약함을 보여준다.
- 더 높은 예측 정확도에도 불구하고 XGBoost의 변수 중요도 점수는 특징 선택에 신뢰할 수 없으며, 불필요한 특징에 중요도를 잘못 할당한다.
- SHAP는 이론적으로 편향을 해결하지만 여전히 불필요한 특징을 정확히 식별하지 못해 특징 선택에서 실용적 유용성에 한계가 있음을 시사한다.
- 최적 트리는 XGBoost와 유사한 예측 성능를 달성하면서도 특징 선택 정확도는 뛰어나고 편향은 감소시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.