QUICK REVIEW

[논문 리뷰] An Algorithm to Extract Rules from Artificial Neural Networks for Medical Diagnosis Problems

S. M. Kamruzzaman, Md. Monirul Islam|arXiv (Cornell University)|2010. 09. 23.

Data Mining Algorithms and Applications참고 문헌 32인용 수 30

한 줄 요약

이 논문은 삼층 피드포워드 인공신경망(ANN)을 기반으로 한 의료 진단을 위한 해석 가능한 분류 규칙을 추출하기 위해 네 단계 알고리즘인 REANN을 제안한다. 구조적 알고리즘을 사용해 은닉 노드를 결정하고, 불필요한 연결과 입력을 제거하며, 히우리스틱 클러스터링을 통해 은닉 노드 활성화 값을 이산화시키고, 압축된 네트워크에서 규칙을 추출함으로써 REANN는 유방암, 당뇨병, 렌즈 데이터셋에서 다른 방법들과 비교해 높은 예측 정확도와 규칙 품질을 달성한다.

ABSTRACT

Artificial neural networks (ANNs) have been successfully applied to solve a variety of classification and function approximation problems. Although ANNs can generally predict better than decision trees for pattern classification problems, ANNs are often regarded as black boxes since their predictions cannot be explained clearly like those of decision trees. This paper presents a new algorithm, called rule extraction from ANNs (REANN), to extract rules from trained ANNs for medical diagnosis problems. A standard three-layer feedforward ANN with four-phase training is the basis of the proposed algorithm. In the first phase, the number of hidden nodes in ANNs is determined automatically by a constructive algorithm. In the second phase, irrelevant connections and input nodes are removed from trained ANNs without sacrificing the predictive accuracy of ANNs. The continuous activation values of the hidden nodes are discretized by using an efficient heuristic clustering algorithm in the third phase. Finally, rules are extracted from compact ANNs by examining the discretized activation values of the hidden nodes. Extensive experimental studies on three benchmark classification problems, i.e. breast cancer, diabetes and lenses, demonstrate that REANN can generate high quality rules from ANNs, which are comparable with other methods in terms of number of rules, average number of conditions for a rule, and predictive accuracy.

연구 동기 및 목표

의료 진단에서 인공신경망의 '블랙박스 문제'를 해결하기 위해 예측 결과를 설명 가능하게 하는 것.
학습된 ANN를 인간이 읽을 수 있는 분류 규칙으로 변환하는 체계적인 방법을 개발하는 것.
절단 및 이산화를 통해 모델 복잡도를 줄이면서도 예측 정확도를 유지하는 것.
임상적 의사결정 지원을 위해 최소한의 조건과 높은 정확도를 갖는 고품질의 규칙을 생성하는 것.
표준 의료 진단 데이터셋에서 방법을 평가하여 실용적 유용성을 입증하는 것.

제안 방법

1단계는 삼층 피드포워드 ANN에서 최적의 은닉 노드 수를 자동으로 결정하기 위해 구조적 알고리즘을 사용한다.
2단계는 예측 성능을 저하시키지 않으면서도 학습된 ANN에서 불필요한 연결과 입력 노드를 제거한다.
3단계는 효율적인 히우리스틱 클러스터링 알고리즘을 사용해 연속적인 은닉 노드 활성화 값을 이산화시킨다.
4단계는 은닉 노드의 이산화된 활성화 패턴을 분석하여 분류 규칙을 추출한다.
규칙 추출 과정은 압축되고, 절단되고, 이산화된 네트워크 구조에 기반해 입력 조건을 출력 진단에 매핑한다.
이 방법은 세 가지 기준 데이터셋인 유방암, 당뇨병, 렌즈에서 평가되었다.

실험 결과

연구 질문

RQ1체계적인 알고리즘이 의료 진단에서 고성능을 유지하면서도 학습된 ANN에서 해석 가능한 규칙을 추출할 수 있는가?
RQ2제안된 절단 및 이산화 과정이 성능을 희생시키지 않고 모델 복잡도를 얼마나 효과적으로 줄이는가?
RQ3다른 규칙 추출 또는 분류 방법과 비교해 추출된 규칙의 수, 규칙 길이, 정확도 측면에서 어떤가?
RQ4REANN 알고리즘이 표준 의료 데이터셋에서 임상적으로 의미 있고 해석 가능한 규칙을 생성할 수 있는가?
RQ5네 단계 과정이 최종 규칙 세트의 품질과 해석 가능성에 어떤 영향을 미치는가?

주요 결과

REANN는 세 가지 기준 의료 진단 데이터셋인 유방암, 당뇨병, 렌즈에서 학습된 ANN에서 고품질의 규칙을 성공적으로 추출했다.
추출된 규칙는 다른 최첨단 규칙 추출 및 분류 방법들과 비교해 유사한 예측 정확도를 달성했다.
불필요한 연결과 입력 노드의 절단을 통해 모델 복잡도가 감소하여 보다 압축된 네트워크가 되었다.
히우리스틱 클러스터링 알고리즘이 연속적인 은닉 노드 활성화 값을 효과적으로 이산화시켜 신뢰할 수 있는 규칙 추출을 가능하게 했다.
최종 규칙 세트는 합리적인 규칙 수와 평균 조건 수가 적어 해석 가능성이 향상되었다.
결과는 REANN가 의료 진단 응용 분야에서 ANN의 블랙박스 문제에 대한 실현 가능한 해결책을 제공한다는 것을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.