QUICK REVIEW

[논문 리뷰] Feature Importance Measure for Non-linear Learning Algorithms

Marina M.-C. Vidovic, Nico Görnitz|arXiv (Cornell University)|2016. 11. 22.

Neural Networks and Applications참고 문헌 10인용 수 24

한 줄 요약

이 논문은 커널 방법과 딥 네URAL 네트워크를 포함한 모든 학습 기계에 적용 가능한 일반적이고 비선형적인 기능 기여도 측정 방법인 기능 기여도 측정(MFI)을 제안한다. MFI는 기능을 고정했을 때 예측이 어떻게 변화하는지 측정하여 모델 기반 및 인스턴스 기반 설명을 가능하게 하며, 복잡한 상호작용을 포착한다. 실험 결과 MFI는 이미지와 DNA 서열에서 중요한 기능을 효과적으로 식별하며, 무작위 블러링보다 성능 저하 테스트에서 뛰어난 성능을 보였다.

ABSTRACT

Complex problems may require sophisticated, non-linear learning methods such as kernel machines or deep neural networks to achieve state of the art prediction accuracies. However, high prediction accuracies are not the only objective to consider when solving problems using machine learning. Instead, particular scientific applications require some explanation of the learned prediction function. Unfortunately, most methods do not come with out of the box straight forward interpretation. Even linear prediction functions are not straight forward to explain if features exhibit complex correlation structure. In this paper, we propose the Measure of Feature Importance (MFI). MFI is general and can be applied to any arbitrary learning machine (including kernel machines and deep learning). MFI is intrinsically non-linear and can detect features that by itself are inconspicuous and only impact the prediction function through their interaction with other features. Lastly, MFI can be used for both --- model-based feature importance and instance-based feature importance (i.e, measuring the importance of a feature for a particular data point).

연구 동기 및 목표

커널 기반 기계와 딥 네URAL 네트워크와 같은 복잡하고 비선형적인 학습 모델에서의 해석 가능한 기능 기여도의 부족을 해결하기 위해.
개별 기능은 중요하지 않지만 조합으로서 영향을 미치는 비선형 기능 상호작용을 포착하는 방법을 개발하기 위해.
통합된 프레임워크 내에서 모델 기반(전역) 및 인스턴스 기반(국소) 기능 기여도 설명을 가능하게 하기 위해.
기존의 POIMs와 FIRM과 같은 방법을 더 넓은 데이터 유형과 학습 알고리즘으로 일반화하기 위해.

제안 방법

MFI는 조건부 기대값을 통해 정의된다: Sϕ,f(t) = E[s(X)ϕ(X) | f(X) = t], 여기서 ϕ는 설명 모드이고 f는 관심 있는 기능이다.
커널 MFI는 커널 함수를 사용한 공분산을 통해 MFI를 확장한다: S⁺ϕ,f(t) = Cov[k(s(X),s(⋅)), l(ϕ(X),ϕ(⋅)) | f(X) = t], 이는 비선형적이고 비모수적 추정을 가능하게 한다.
설명 모드 ϕ는 방법이 인스턴스 기반(예: ϕ(X)=1은 픽셀/서열 위치를 의미)인지 모델 기반(예: ϕ(X)=X 또는 ϕ(X)=B는 모티프 맵을 의미)인지 결정한다.
추정을 위해 고정된 표본 크기(실험에서 1000)를 사용하는 몬테카를로 샘플링을 적용하여 조건부 기대값을 근사한다.
이 방법은 RBF-SVM과 WD-kernel SVM을 사용하여 이미지(USPS 숫자 분류) 및 서열(DNA 스플라이스 사이트) 데이터에 적용되었다.
성능 평가에서는 MFI 기반 중요도 순으로 정렬된 기능을 블러링했을 때의 분류기 정확도 손실을 무작위 블러링과 비교하여 수행되었다.

실험 결과

연구 질문

RQ1다양한 학습 기계, 특히 딥 네URAL 네트워크와 커널 방법에 적용 가능한 일반적이고 비선형적인 기능 기여도 측정법을 개발할 수 있는가?
RQ2MFI는 다른 기능과의 상호작용을 통해만 영향을 미치는 기능을 얼마나 잘 탐지할 수 있는가?
RQ3MFI는 인간의 직관과 모델 행동에 부합하는 의미 있는 인스턴스별 설명을 제공하는가?
RQ4MFI 기반 기능 순위는 무작위 기능 블러링보다 성능 저하가 더 빠르게 발생하는가?

주요 결과

이미지 데이터에서는 숫자 '3'의 상단과 하단을 연결하는 수직 브릿지 부분이 매우 중요하다고 MFI가 식별하였다; 이 부분을 블러링했을 때 성능 저하가 무작위 블러링보다 빠르게 발생하였다.
DNA 서열 분류에서는 MFI가 삽입된 모티프(GGCCGTAAA 및 TTTCACGTTGA)를 모두 분류적으로 중요한 것으로 정확히 식별하였고, 오분류된 서열은 적어도 하나의 모티프에 대한 증거가 없었다.
연속된 MFI 추정치 간의 프로베니우스 거리가 215개의 표본에서 0으로 수렴하여 추정의 안정성을 보였지만, 런타임은 거의 지수적으로 증가하였다.
표본 크기가 1000일 경우, 런타임과 정확도 사이의 균형이 잘 맞아서 이후 모든 실험에서 사용되었다.
인스턴스 기반 MFI는 잘못 분류된 예시에서 분류적으로 중요한 기능을 정확히 식별하였으며, 예를 들어 모티프 패턴이 누락되었거나 숫자의 수직 연결이 끊어진 경우를 포함하였다.
커널 MFI는 성능 저하 테스트에서 무작위 블러링보다 뛰어난 성능을 보였으며, MFI가 예측에 미치는 영향에 따라 기능을 의미 있게 순위 매긴다는 점을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.